[Mitchell，1997] 给 出 了 
一 个 更 形式 化 的 定义 : 假 
设 用 书 来 评估 计算 机 程序 
在 某 任 务 类 全 上 的 性 能 ， 
- 车 一 个 程序 通过 利用 经 验 
互 在 TT 中 任务 上 获得 了 性 
能 改善 , 则 我 们 就 说 关于 


T Fo P, 该 程序 对 OE AT 


了 学 习 . 


例如 [Hand et al., 2001]. 


1.1 引言 


傍晚 小 街路 面 上 沁 出 微 雨 后 的 湿润 和 网 的 细 风 吹 来 , 抬头 看 看 天 边 的 晚 
T, WA, 明天 又 是 一 个 好 天 气 . 走 到 水 果 摊 旁 , BRT MR. RE BN 
响 的 青绿 西瓜 , 一 边 满心 期 待 着 皮 薄 肉 厚 壮 甜 的 爽 落 感 , 一 边 愉快 地 想 着 , 这 学 
期 狠 下 了 工夫 , 基础 概念 弄 得 清 清楚 楚 , 算法 作业 也 是 信 手 牛 来 , 这 门 课 成 绩 一 
EAT! | | 

希望 各 位 在 学 期 结束 时 有 这 样 的 感觉 .作为 开场 , 我 们 先 大 致 了 解 一 下 什 
么 是 “机 器 学 习 ”(machine learning). | 

回头 看 第 一 段 话 , 我 们 会 发 现 这 里 涉及 很 多 基于 经 验 做 出 的 预 判 . 例如 , 为 
什么 看 到 微 湿 路 面 、 感 到 和 风 、 看 到 晚霞 , 就 认为 明天 是 好 天 呢 ? 这 是 因为 在 
我 们 的 生活 经 验 中 已 经 遇见 过 很 多 类 似 情况 , 头 一 天 观察 到 上 述 特征 后 , 第 二 
天 天 气 通常 会 很 好 . 为 什么 色泽 青绿 、 根 蒂 赚 缩 、 敲 声 沁 响 , 就 能 判断 出 是 正 
熟 的 好 瓜 ?因为 我 们 吃 过 、 看 过 很 多 西瓜 , 所 以 基于 色泽 、 根 蒂 、 敲 声 这 几 个 
特征 我 们 就 可 以 做 出 相当 好 的 判断 . 类 似 的 , 我 们 从 以 往 的 学 习 经 验 知道 , FE 
了 工夫 、 弄 清 了 概念 、 做 好 了 作业 , 自然 会 取得 好 成 绩 . 可 以 看 出 , 我 们 能 做 出 
有 效 的 预 判 , 是 因为 我 们 已 经 积累 了 许多 经 验 , 而 通过 对 经 验 的 利用 , 就 能 对 新 
情况 做 出 有 效 的 决策 . | 

上 面 对 经 验 的 利用 是 靠 我 们 人 类 自身 完成 的 . 计算 机 能 帮忙 吗 ? 

机 器 学 习 正 是 这 样 一 门 学 科 , 它 致力 于 研究 如 何 通过 计算 的 手段 , 利用 经 
验 来 改善 系统 自身 的 性 能 . 在 计算 机 系统 中 , “经 验 ” 通 常 以 “数据 ”形式 存 
在 , 因此 , 机 器 学 习 所 研究 的 主要 内 容 , 是 关于 在 计算 机 上 从 数据 中 产生 “ 模 
型 ”(model) 的 算法 , 即 “学 习 算法 ”(learning algorithm). 有 了 学 习 算法 , 我 


_ 们 把 经 验 数据 提供 给 它 , 它 就 能 基于 这 些 数据 产生 模型 ; 在 面 对 新 的 情况 时 ( 例 


如 看 到 一 个 没 训 开 的 西瓜 ) 模型 会 给 我 们 提供 相应 的 判断 (例如 好 瓜 )， 如 果 说 
计算 机 科学 是 研究 关于 “算法 ”的 学 问 , 那么 类 似 的 , 可 以 说 机 器 学 习 是 研究 
关于 “学 习 算法 ”的 学 问 . 

本 书 用 “模型 ” 泛 指 从 数据 中 学 得 的 结果 . 有 文献 用 “模型 ” 指 全 局 性 结 


果 ( 例 如 一 棵 决策 树 ), 而 用 “模式 ” 指 局 部 性 结果 (例如 一 条 规则 ). 
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第 1 章 绪 人 论 





有 时 整个 数据 集 亦 称 一 
个 “样本 ”， 因 为 它 可 看 
作对 样本 空间 的 一 个 采样 ; 
通过 上 下 文 可 判断 出 “ 样 


本 ” 是 指 单个 示例 还 是 数 


据 集 . 


M aa “训练 示 
” (training instance): z 或 
oe 


学 习 算 法 通常 有 参数 需 
设置 ,使 用 不 同 的 参数 值 
PIRI ARKE, 将 产生 
不 同 的 结果 . 


将 “labe” $A “ 标 
i” 而 非 “标签 ”， 是 考 
RESP “label” BT 
用 作 名 词 、 也 可 用 作 动 词 . 


He” J a 和 





1.2 基本 术语 
要 进行 机 器 学 习 , 先 要 有 数据 .假定 我 们 收集 了 一 批 关 于 西瓜 的 数据 例 


如 (色泽 = 青绿 ; ALBEE, Raha), (色泽 = 乌黑; HA FE He 
间 )，( 色 泽 = 浅 白 ; BBE, BOSSE), …… 每 对 括号 内 是 一 条 记录 
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”意思 是 “ 取 值 为 ”: 


这 组 记录 的 集合 称 为 一 个 “数据 集 ”(data set), 其 中 每 条 记录 是 关于 一 


个 事件 或 对 象 (这 里 是 一 个 西瓜 ) 的 描述 , 称 为 一 个 “示例 ”(instance) 或 “ 样 


A” (sample). 反映 事件 或 对 象 在 某 方 面 的 表现 或 性 质 的 事项 , 例如 “色泽 ” 
“HEA” “REE” , 称 为 “属性 ”(attribute) R “RE” (feature); 属性 上 的 取 
值 , 例如 “青绿 ”“ 乌 黑 ”, 称 为 “属性 值 ”(attribute value). 属性 张 成 的 空 
间 称 为 “属性 空间 ”(attribute space)、“ 样 本 空间 ”(sample space) 或 “输入 
空间 ”. 例如 我 们 把 “色泽 ”“ 根 蒂 ”“ 敲 声 ” 作 为 三 个 坐标 轴 , 则 它们 张 成 
一 个 用 于 描述 西瓜 的 三 维 空间 , 每 个 西瓜 都 可 在 这 个 空间 中 找到 自 ii 
B. 由 于 空间 中 的 每 个 点 对 应 一 个 坐标 向 量 , 因此 我 们 也 把 一 个 示例 称 为 一 
“RPE |p] St” (feature vector). - | 

一 般 地 , $ D = {x1,29,...,2m} 表示 包含 m 个 示例 的 数据 集 , 每 个 
示例 由 d 个 属性 描述 (例如 上 面 的 西瓜 数据 使 用 了 3 个 属性 ), 则 每 个 示例 
Zi = (Xil; Ti2;...;Tid) 是 ad 维 样本 空间 XC 中 的 一 个 同 量 , zi E X, 其 中 zi 是， 
zi 在 第 7 了 个 属性 上 的 取 值 (例如 上 述 第 3 个 西瓜 在 第 2 个 属性 上 的 值 是 “ 硬 

称 为 样本 zi; 的 “ 维 数 ”(dimensionality). | | 

从 数据 中 学 得 模型 的 过 UHRA “FY” (learning) He “YA” (training), 
这 个 过 程 通过 执行 某 个 学 习 算法 来 完成 . 训练 过 程 中 使 用 的 数据 称 为 “训练 
数据 ”(training data), 其 中 每 个 样本 称 为 一 个 “训练 样本 ”(training sample), — 
训练 样本 组 成 的 集合 称 为 “训练 集 ”(training set). 学 得 模型 对 应 了 关于 数据 
的 某 种 潜在 的 规律 , 因此 亦 称 “ 假 设 ”(hypothesis); 这 种 潜在 规律 自身 , 则 称 
为 “真相 ”或 “真实 ” (ground-truth), SEA J RW OBER. 本 
书 有 时 将 和 模型 称 为 “学 习 器 ”(learner), 可 看 作 学 习 算 法 在 给 定数 据 和 参数 空 
间 上 的 实例 化 . a 

如 条 希望 学 得 一 个 能 帮助 我 们 判断 没 剖 开 的 是 不是 “好 瓜 ” 的 模型 , 仅 
有 前 面 的 示例 数据 显然 是 不 够 的 . 要 建立 这 样 的 关于 “预测 ” (prediction) 的 
模型 , 我 们 需 获 得 训练 样本 的 “结果 ”信息 , 例如 “(( 色 泽 = 青 绿 ; 根 带 = Ine 


moc FTE Md), 好 瓜 )”. 这 里 关于 示例 结果 的 信息 , 例如 “好 瓜 ”, 称 为 “ 标 
ver Uebel FES Ts eis NP, Sik BA “REVI” (example). 一 般 地 , 用 


ww ai bbt.com A000 





12 基本 术语 


若 将 标记 看 作对 象 本 身 
的 一 部 分 , 则 “ 样 例 ” 有 
时 也 称 为 “样本 ” i 

亦 称 “HR” 


亦 称 “测试 示例 ? 
(testing instance) 或 “ 测 
试 例 ” : 


否则 标记 信息 直接 形成 
TRF; 但 也 有 例外 情 
” 况 , 参见 13.6 节 . 


亦 称 “ 有 导师 学 习 ” 和 
“无 导师 学 习 ” . 


更 确切 地 说 , 是 “未 见 
示例 ” (unseen instance). 


现实 任务 中 样本 空间 的 
规模 通常 很 大 (例如 20 个 
属性 , 每 个 属性 有 10 个 可 
能 取 值 , 则 样本 空间 的 规 
模 已 达 102). 


(zi; ys) 表示 第 i 个 样 例 , 其 中 yi E€ V 是 示例 zi 的 标记 , 》 是 所 有 标记 的 集合 ， 


亦 称 “ 标 记 空 间 ”(label space) 或 “输出 空间 ”. 


ERIAK ARE, 例如 “好 瓜 ”“ 坏 瓜 ”, 此 类 学 习 任 务 称 为 
“IR” (classification); 硝 欲 预测 的 是 连续 值 ， 例如 西瓜 成 熟 度 0.95、0.37， 
此 类 学 习 任 务 称 为 “回归 ”(regression).， 对 只 涉及 两 个 类 别 的 “二 分 
类 ”(binary classification) 任 务 , 通常 称 其 中 一 个 类 为 “ 正 类 ”(positive class), 
男 一 个 类 为 “ 反 类 ”(negative class); 涉及 多 个 类 别 时 ， 则 称 为 “多 分 
3” (multi-class classification) 任务 . 一 般 地 , 预测 任务 是 希望 通过 对 训练 
R {(21, y1), (2, Y2),--+)(Lms Ym) } 进行 学 习 , 建立 一 个 从 输入 空间 x 到 输出 
空间 YV 的 映射 了: XY. 对 二 分 类 任务 , 通常 令 Y = {-1,41} R {0,1}; 对 
多 分 类 任务 , |V| > 2; 对 回归 任务 , V =R, R 为 实数 集 . 

学 得 模型 后 , 使 用 其 进行 预测 的 过 程 称 为 “测试 ”(testing), 被 预测 的 样本 
称 为 “测试 样本 ”(testing sample). 例如 在 学 得 f Ja, 对 测试 例 s, 可 得 到 其 预 
测 标 记 y = f(x). 

RADER ARPA “RK” (clustering), 即将 训练 集中 的 西瓜 分 成 若干 
组 , 每 组 称 为 一 个 “ 簇 ”(cluster); 这 些 自 动 形 成 的 簇 可 能 对 应 一 些 潜在 的 概念 
划分 , 例如 “ 浅 色 瓜 ”“ 深 色 瓜 ”, 甚至 “本 地 瓜 ”“ 外 地 瓜 ”. 这 样 的 学 习 过 
程 有 助 于 我 们 了 解数 据 内 在 的 规律 , 能 为 更 深入 地 分 析 数 据 建立 基础 . 需 说 明 
的 是 , 在 聚 类 学 习 中 , “ 浅 色 瓜 ”“ 本 地 瓜 ” 这 样 的 概念 我 们 事先 是 不 知道 的 ， 
而 且 学 习 过 程 中 使 用 的 训练 样本 通常 不 拥有 标记 信息 . 

根据 训练 数据 是 否 拥有 标记 信息 , 学 习 任务 可 大 人 致 划分 为 两 大 类 : “监督 
学 习 ”(supervised learning) 和 “无 监督 学 习 ”(unsupervised learning), 分 类 
和 回归 是 前 者 的 代表 , 而 聚 类 则 是 后 者 的 代表 . © 

需 注意 的 是 , 机 器 学 习 的 目标 是 使 学 得 的 模型 能 很 好 地 适用 于 “新 样本 ”， 
而 不 是 仅仅 在 训练 样本 上 工作 得 很 好 ; 即便 对 聚 类 这 样 的 无 监督 学 习 任 务 , 我 


“ 们 也 希望 学 得 的 簇 划 分 能 适用 于 没 在 训练 集中 出 现 的 样本 . 学 得 模型 适用 于 
”新 样本 的 能 力 , 称 为 “ 泛 化 ”(generalization) 能 力 . 具有 强 泛 化 能 力 的 模型 能 


很 好 地 适用 于 整个 样本 空间 . 于 是 , 尽管 训练 集 通常 只 是 样本 空间 的 一 个 很 小 
的 采样 , 我 们 仍 希 望 它 能 很 好 地 反映 出 样本 空间 的 特性 , 否则 就 很 难 期 望 在 训 
练 集 上 学 得 的 模型 能 在 整个 样本 空间 上 都 工作 得 很 好 . 通常 假设 样本 空间 中 全 
体 样本 服从 一 个 未 知 “ 分 布 ”(distribution):D, 我 们 获得 的 每 个 样本 都 是 独立 
地 从 这 个 分 布 上 采样 获得 的 , 即 “ 独 立 同 分 布 ”(independent and identically 


istr] 简称 iid.). 一 上 言 , 训练 们 得 到 的 3 J 信息 
distributed, i com eH : 训 绕 样本 越 多 ， 我 们 得 到 的 关于 D 的 信息 





更 一 般 的 情况 是 考虑 形 
如 (AAB) V (CAD) 的 析 
合 范式 . 





” 越 多 , 这 样 就 越 有 可 能 通过 学 习 获 得 具有 强 泛 化 能 力 的 模型 


1.3 假设 空间 


归纳 (induction) 与 演绎 (deduction) 是 科学 推理 的 两 大 基本 手段 . 前 者 是 从 
特殊 到 一 般 的 “ 泛 化 ”(generalization) 过 程 ， 即 从 具体 的 事实 归结 出 一 般 性 规 
律 ; 后 者 则 是 从 一 般 到 特殊 的 “ 特 化 ”(specialization) 过 程 , 即 从 基础 原理 推演 
出 具体 状况 . 例如 ， o 基于 一 组 公理 和 推理 规则 推导 出 与 之 
相 洽 的 定理 , 这 是 演绎 ; 而 “从 样 例 中 学 习 ” 显 然 是 一 个 归纳 的 过 程 , 因此 亦 称 
“归纳 学 习 ” fe learning). | 

归纳 学 习 有 狭义 与 广义 之 分 ， 广义 的 归纳 学 习 大 体 相当 于 从 样 例 中 学 习 ， 
而 狭义 的 归纳 学 习 则 要 求 从 训练 数据 中 学 得 概念 (concept), 因此 亦 称 为 “概念 
学 习 ” 或 “概念 形成 ”. 概念 学 习 技 术 目 前 研究 、 应 用 都 比较 少 , 因为 要 学 得 
泛 化 性 能 好 且 语 义 明 确 的 概念 实在 太 困难 了 , 现实 常用 的 技术 大 多 是 产生 “ 黑 
箱 ” 模 型 . 然而 , 对 概念 学 习 有 所 了 解 , 有 助 于 理解 机 器 学 习 的 一 些 基础 思想 . 


念 学 习 中 最 基本 的 是 布尔 概念 学 习 , 即 对 “是 ”“ 不 是 ”这 样 的 可 表示 

为 0/1 布尔 值 的 目标 概念 的 学 习 . 举 个 简单 的 例子, 假定 我 们 获得 了 这 样 一 
个 训练 数据 集 : | | | 

#11 西瓜 数据 集 

编号 ”色泽 WE W 

”青绿 e YG 

BR hese yay 


1 
2 
3 Wat 硬挺 ”清脆 
4 GE ee py 


| DA Dd a Ga = 


这 里 要 学 习 的 目标 是 “好 瓜 ”. 暂且 假设 “好 瓜 ” 可 由 “色泽 ”“ 根 幕 ” 
“ 敲 声 ” 这 三 个 因素 完全 确定 , 换言之 , 只 要 某 个 瓜 的 这 三 个 属性 取 值 明确 了 ， 
我 们 就 能 判断 出 它 是 不 是 好 瓜 . 于 是 , 我 们 学 得 的 将 是 “好 瓜 是 某 种 色泽 、 某 
PRR, EHRE RLU KERES, 用 布尔 表达 式 写 出 来 则 是 “好 瓜 6 ( 色 
泽 =?) 人 ( 根 蒂 =?) A ( 敲 声 =?)”, 这 里 “?” 表 示 尚 未 确定 的 取 值 ， 而 我 们 的 任 
务 就 是 通过 对 表 1.1 的 训练 集 进行 学 习 , 把 “?” 确 定 下 来 


读者 可 能 马上 发 现 , 表 1.1 第 一 行 : “(色泽 = 青绿 ) 人 ( 根 蒂 = 里 缩 ) A (BR 


” 声 = 浊 响 )” 不 就 是 好 瓜 吗 ? 是 的 ， eeo Alls J RIFA K 


目的 是 ZMP a Bpa RE M: ae 以 获得 对 没 见 过 的 瓜 进行 判断 的 


. COM 





1.3 ”假设 空间 


“ 记 住 ”训练 样本 ， 就 
是 所 谓 的 “机 械 学 习 ” 
[Cohen and Feigenbaum, 
1983], 或 称 “ 死 记 硬 背 式 
FQ”, 参见 1.5 节 . 


这 里 我 们 假定 训练 样 


ARTERE, HARKER 


“ 非 青绿 ”这 样 的 OAR 
Ve. 由 于 训练 集 包 含 正 例 ， 
因此 名 假设 自然 不 出 现 . 


有 许多 可 能 的 选择 ,如 
在 路 径 上 自 项 向 下 与 自 底 
向 上 同时 进行 , 在 操作 上 
只 删除 与 正 例 不 一 致 的 假 
设 等 . 


5 


能 力 . 如 果 仅 仅 把 训练 集中 的 瓜 “ 记 住 ”, 今后 再 见 到 一 模 一 样 的 瓜 当然 可 判 
Wi, 但 是 , 对 没 见 过 的 瓜 , 例如 “( 色 泽 = 浅 白 ) A ERS) A (A= 浊 响 )” 
怎么 办 呢 ? 

我 们 可 以 把 学 习 过 程 看 作 一 个 在 所 有 假设 (hypothesis) 组 成 的 空间 中 进行 
搜索 的 过 程 , 搜索 目标 是 找到 与 训练 集 “匹配 ”(fit) 的 假设 , 即 能 够 将 训练 集中 
的 瓜 判 断 正确 的 假设 . 假设 的 表示 一 旦 确定 , 假设 空间 及 其 规模 大 小 就 确定 了 . 
这 里 我 们 的 假设 空间 由 形 如 “(色泽 =?) 人 ( 根 蒂 =?) A ( 襄 声 =?)” 的 可 能 取 值 
所 形成 的 假设 组 成 . 例如 色泽 有 “青绿 ”“ 乌 黑 ”“ 浅 白 ” 这 三 种 可 能 取 值 ; 
还 需 考虑 到 , 也 许 “ 色 泽 ” 无 论 取 什 么 值 都 合适 , 我 们 用 通配符 “*” 来 表示 ， 
例如 “好 瓜 e (色泽 = *) A GRR =A) A ( 敲 声 = 浊 响 )”, BL “Hee A 
oa. ARPS TRUM, 什么 色泽 都 行 ”. 此 外 , 还 需 考 虑 极端 情况 : 有 可 能 “好 
瓜 ” 这 个 概念 根本 就 不 成 立 , 世界 上 没有 “好 瓜 ”这 种 东西 ; 我 们 用 g 表示 这 
个 假设 . 这 样 , 车 “色泽 ”“ 根 蒂 ”“ 敲 声 ”分 别 有 3、2、2 种 可 能 取 值 , 则 我 
们 面临 的 假设 空间 规模 大 小 为 4x 3 x 3 十 1 = 二 37. 图 1.1 直观 地 显示 出 了 这 个 
西瓜 问题 假设 空间 . 


(色泽 ==* ; 根 带 二 *; A= *) 










(色泽 = 









青绿 ; 根 带 =* ; 敲 声 =* ) 


(色泽 = 乌黑 ; 根 带 二 * ; =x ) 


(色泽 = 青绿 ; WA = TE ; 





(色泽 = 青绿 ; HA ESE ; 敲 声 =* ) 





(色泽 = 青绿 ; WH = RS =I) || (色泽 = 青绿 ; HIG ; 
1.1 西瓜 问题 的 假设 空间 


可 以 有 许多 策略 对 这 个 假设 空间 进行 搜索 , 例如 自 顶 向 下 、 从 一 般 到 特殊 ， 
或 是 自 底 同上 、 从 特殊 到 一 般 , 搜索 过 程 中 可 以 不 断 删 除 与 正 例 不 一 致 的 假 
设 、 和 (或 ) 与 反例 一 致 的 假设 . 最 终 将 会 获得 与 训练 集 一 致 ( 即 对 所 有 训练 样本 
能 够 进行 正确 判断 ) 的 假设 , 这 就 是 我 们 学 得 的 结 米 . 

需 注意 的 是 , 现实 问题 中 我 们 常 面 临 很 大 的 假设 空间 , 但 学 习 过 程 是 基于 
有 限 样本 训练 集 进 行 的 , 因此 , 可 能 有 多 个 假设 与 训练 集 一 致 , 即 存 在 看 一 个 与 
训练 集 一 致 的 “假设 集合 ”, 我 们 称 之 为 “版 本 空间 ”(version space). 例如 ， 
在 西瓜 问题 中 , 与 表 1.1 训练 集 所 对 应 的 版 本 空间 如 图 1.2 所 示 . 
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尽 可 能 特殊 即 “适用 情 
形 尽 可 能 少 ”; 尽 可 能 一 
般 即 “适用 情形 尽 可 能 
$”. 


Xt “ARH” LAIT “RR 
声 ” 更 重视 , 看 起 来 和 属 
性 选择 ， 亦 称 “ 特 征 选 
择 ”(feature selection) 有 
X, 但 需 注意 的 是 , 机 器 学 
习 中 的 特征 选择 仍 是 基于 
对 训练 样本 的 分 析 进 行 的 ， 
而 在 此 处 我 们 并 非 基 于 特 
征 选 择 做 出 对 “ 根 蒂 ” 的 
重视 ; REX A” 
信赖 可 视 为 基于 茶 种 领域 
知识 而 产生 的 归纳 偏好 . 
关于 特征 选择 方面 的 内 容 
”参见 第 11 章 . 


殊 ” 的 模型 , 则 它 会 选择 “好 瓜 今 (色泽 = *) A 







(EI$ =x; HF = REA ; RS = *) 


(E =x; 根 蒂 一 * ; 敲 声 = 清脆 ) 
(色泽 =*; A = Rae ; 敲 声 = 清脆 ) 
1.2 西瓜 问题 的 版 本 空间 


1.4 归纳 偏好 


通过 学 习 得 到 的 模型 对 应 了 假设 空间 中 的 一 个 假设 . 于 是 , 图 1.2 的 西瓜 
版 本 空间 给 我 们 带 来 一 个 麻烦 : 现在 有 三 个 与 训练 集 一致 的 假设 , 但 与 它们 
对 应 的 模型 在 面临 新 样本 的 时 候 , 却 会 产生 不 同 的 输出 . 例如 , 对 (色泽 = 青绿 ; 
WR ESA; A= 沉闷 ) 这 个 新 收 来 的 瓜 , 如 果 我 们 采用 的 是 “好 瓜 Oo (E 
泽 = *) 人 (MAWES) A (R= *)”, 那么 将 会 把 新 瓜 判 断 为 好 瓜 , MURR 
用 了 男 外 两 个 假设 , 则 判断 的 结果 将 不 是 好 瓜 . 那么 , 应 该 采用 哪 一 个 模型 (或 


假设 ) 呢 ? 


FER 1.1 中 的 训练 样本 , 则 无 法 断定 上 述 三 个 假设 中 哪 一 个 “更 好 ”. 
然而 , 对 于 一 个 具体 的 学 习 算 法 而 言 , 它 必须 要 产生 一 个 模型 . 这 时 , 学 习 算 
法 本 身 的 “偏好 ”就 会 起 到 关键 的 作用 . 例如 , 若 我 们 的 算法 喜欢 “ 尽 可 能 特 
GRR =E) 入 ( 敲 声 = 浊 响 )”:; 
但 若 我 们 的 算法 喜欢 “ 尽 可 能 一 般 ” 的 模型 , 并 且 由 于 某 种 原因 它 更 “相信 ” 
MAE, 则 它 会 选择 “好 瓜 人 (色泽 = *) A (AERIS) AB a)” o. 机 器 学 习 
算法 在 学 习 过 程 中 对 某 种 类 型 假设 的 偏好 , 称 为 “归纳 偏好 ”(inductive bias), 
或 简称 为 “偏好 ”. 

任何 一 个 有 效 的 机 器 学 习 算 法 必 有 其 归纳 偏好 , 否则 它 将 被 假设 空间 中 看 


似 在 训练 集 上 “等 效 ” 的 假设 所 迷惑 , 而 无 法 产生 确定 的 学 习 结果 . 可 以 想象 ， 


如 果 没 有 偏好 , 我 们 的 西瓜 学 习 算 法 产生 的 模型 每 次 在 进行 预测 时 随机 抽 选 
训练 集 上 的 等 效 假设 , 那么 对 这 个 新 瓜 “( 色 泽 = BA RA I 
pal)”, 学 得 模型 时 而 告诉 我 们 它 是 好 的 、 时 而 告诉 我 们 它 是 不 好 的 , 这 样 的 学 
习 结果 显然 没有 意义 . 

归纳 偏好 的 作用 在 图 1.3 这 个 回归 学 习 图 示 中 可 能 更 直观 . 这 里 的 每 个 训 
练 样本 是 图 中 的 一 个 点 (x,y), 要 学 得 一 个 与 训练 集 一 致 的 模型 , 相当 于 找到 一 
条 穿 过 所 有 训练 样本 点 的 曲线 . 显然 , 对 有 限 个 样本 点 组 成 的 训练 集 , 存在 着 
很 多 条 曲线 与 其 一 致 . 我 们 的 学 习 算 法 必须 有 某 种 偏好 , 才能 产 出 它 认 为 “ 正 


确 ” 的 模型 . 例如 , 大 认为 相似 的 样本 应 有 相似 的 输出 (例如 , 在 各 种 属性 上 都 
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1.4 归纳 偏好 





图 1.3 存在 多 条 曲线 与 有 限 样本 训练 集 一 致 


很 相像 的 西瓜 , 成 熟 程度 应 该 比较 接近 ), 则 对 应 的 学 习 算法 可 能 偏好 图 1.3 中 
比较 “平滑 ”的 曲线 A Th ANE Lee “er” A B. 

归纳 偏好 可 看 作 学 习 算 法 自身 在 一 个 可 能 很 庞大 的 假设 空间 中 对 假设 进 
行 选择 的 局 发 式 或 “价值 观 ”. WA, 有 没有 一 般 性 的 原则 来 引导 算法 确立 
“正确 的 ”偏好 昵 ? “ 奥 卡 姆 剃刀 ”(Occam's razor) 是 一 种 常用 的 、 上 自然 科学 
研究 中 最 基本 的 原则 , 即 “ 才 有 多 个 假设 与 观察 一 致 , 则 选 最 简单 的 那个 ”. 如 
果 采 用 这 个 原则 , 并 且 假 设 我 们 认为 “更 平滑 ”意味 着 “更 简单 ”( 例 如 曲线 
A 更 易于 描述 , EJERE y = 一 x? +6z 十 1, 而 曲线 B 则 要 复杂 得 多 ), 则 在 
图 1.3 中 我 们 会 自然 地 偏好 “平滑 ”的 曲线 A. 


然而 , 奥 卡 姆 剃刀 并 非 唯一 可 行 的 原则 . 退 一 步 说 , 即便 假定 我 们 是 奥 卡 姆 
BI WTA, 也 需 注意 到 , 奥 卡 姆 剃刀 本 里 存在 不 同 的 诠释 , 使 用 奥 卡 姆 剃 
思 原 则 并 不 平凡 . 例如 对 我 们 已 经 很 熟悉 的 西瓜 问题 来 说 ,， “假设 1: EM 心 
(色泽 = *) 人 (Rt ESR) A ( 敲 声 = 浊 响 )” 和 假设 2: “好 瓜 > (色泽 = *) A 
(AR i EAH) A (OCR *)” 这 两 个 假设 , 哪 一 个 更 “简单 ” 呢 ? 这 个 问题 并 不 
简单 , 需 借助 其 他 机 制 才 能 解决 ， | 


事实 上 , BARERA TY GEA PTET “TT AEN A E 
好 ”的 假设 . 在 具体 的 现实 问题 中 , 这 个 假设 是 否 成 立 , 即 算法 的 归纳 偏好 是 否 
与 问题 本 身 匹 配 , 大 多 数 时 候 直 接 决 定 了 算法 能 否 取 得 好 的 性 能 . 

让 我 们 再 回头 看 看 图 1.3. 假设 学 习 算 法 La 基于 某 种 归纳 偏好 产生 了 对 应 
于 曲线 A 的 模型 , 学 习 算 法 & 基于 另 一 种 归纳 偏好 产生 了 对 应 于 曲线 B 的 模 
型 . 基于 前 面 讨论 的 平滑 曲线 的 某 种 “描述 简单 性 ”, 我 们 满怀 信心 地 期 待 算 
YE La th Lp 更 好 . 确实 , 图 1.4(a) 显 示 出 , 与 BAL, A 与 训练 集 外 的 样本 更 一 


致 ; 换言之 , A 的 泛 化 能 力 比 B 强 . 
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这 里 只 用 到 一 些 非常 基 


础 的 数学 知识 ， 只 准备 读 
HLA “KFAR” 
shag ht apna gt 

不 会 影响 理解 ， 只 需 相 
He 上 面 这 个 看 起 来 “ 匪 


夷 所 思 ” 的 结论 确实 是 成 


若 f 均匀 分 布 , 则 有 一 
半 的 了 对 w 的 预测 与 h(z) 
不 一 致 . 











(a) AF B | (b) BF A 
1.4 没有 免费 的 午餐 . (BA: 训练 样本 ; 白 点 : 测试 样本 ) 


但 是 , 且慢 ! 虽然 我 们 希望 并 相信 La 比 L 更 好 , 但 会 不 会 出 现 图 1.4(b) 的 


情况 : 与 A 相 比 , B 与 训练 集 外 的 样本 更 一 致 ? 


很 遗憾 , 这 种 情况 完全 可 能 出 现 . 换言之 , 对 于 一 个 学 习 算 法 La 若 它 在 某 
些 问 题 上 比 学 习 算 法 & 好 , 则 必然 存在 另 一 些 问题 , 在 那里 Lo E La 好 . 有 趣 
的 是 , 这 个 结论 对 任何 算法 均 成 立 , 哪怕 是 把 本 书后 面 将 要 介绍 的 一 些 聪明 算 
法 作为 La 而 将 “随机 胡 猜 ”这 样 的 笨拙 算法 作为 L. 惊讶 吗 ? 让 我 们 看 看 下 
面 这 个 简短 的 讨论 : 

为 简单 起 见 , 假设 样本 空间 X 和 假设 空间 H 都 是 离散 的 . $ P(hA|X, La) 


代表 算法 La 基于 训练 数据 X 产生 假设 h 的 概率 , 再 令 了 代表 我 们 希望 学 习 的 


真实 目标 函数 . Lo 的 “训练 集 外 误差 ”, 即 La 在 训练 集 之 外 的 所 有 样本 上 的 


Exe(SlXsf)= 3. E Pla) Uh (@) # Fe) PCI M2) (1.1) 


h mEX-X 


其 中 开 .) 是 指示 函数 , 车 为 真 则 取 值 1, 否则 取 值 0 
考虑 二 分 类 问题 , 且 真 实 目 标 函 数 可 以 是 任何 函数 > {0,1}, 函数 空间 
{0,1}, 对 所 有 可 能 的 了 按 均 匀 分 布 对 误差 求 和 , 有。 


Fa |X, f) =k NO P (h(x ) 天 f(x)) P(h | X, £a) 


h wex—X 
= 下 P(x) 2, P(h| X, £6) > + f(x)) 
BEX X 
sy p (2) Plh X20)32 git 
LEX—X 


1 
= 52% NO P(x) 》 P(h| X, La) 


了 GE 七 一 人 h 
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1.4 ”归纳 偏好 


严格 的 NFL 定理 证 明 比 
这 里 的 简化 论述 繁 难得 多 . 
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= 24-1 N P(e) 1. (1.2) 


LEX—-X 


式 (1.2) 显 示 出 , 总 误差 竟然 与 学 习 算 法 无 关 ! 对 于 任意 两 个 学 习 算 法 La 和 
£5, 我们 都 有 
> Eote(LalX, f) = >》 Eote(Lo|X, f) ) (1.3) 
f f ; 


也 就 是 说 , 无 论 学 习 算 法 La 多 聪明 、 学 习 算法 & SAT, CN 
然 相 同 ! 这 就 是 “没有 免费 的 午餐 ”定理 (No Free Lunch Theorem, 简称 NFL 
定理 ) [Wolpert, 1996; Wolpert and Macready, 1995]. 


这 下 子 , 读者 对 机 器 学 习 的 热情 可 能 被 一 贫 冷 水 洲 透 了 : 既然 所 有 学 习 算 
法 的 期 望 性 能 都 跟随 机 胡 猜 差不多, 那 还 有 什么 好 学 的 ? 


我 们 需 注 意 到 , NFL 定理 有 一 个 重要 前 提 : 所 有 “问题 ”出 现 的 机 会 相 
同 、 或 所 有 问题 同等 重要 . 但 实际 情形 并 不 是 这 样 . 很 多 时 候 , 我 们 只 关注 自 
己 正在 试图 解决 的 问题 (例如 某 个 具体 应 用 任务 ), 希望 为 它 找到 一 个 解决 方案 ， 
至 于 这 个 解决 方案 在 别 的 问题 、 甚 至 在 相似 的 问题 上 是 否 为 好 方案 , 我 们 并 不 
关心 . 例如 , 为 了 快速 从 A 地 到 达 B 地 , 如 果 我 们 正在 考虑 的 A 地 是 南京 鼓 - 
楼 、B 地 是 南京 新 街 口 , 那么 “ 骑 自 行车 ”是 很 好 的 解决 方案 ; 这 个 方案 对 A 
地 是 南京 鼓楼 、B 地 是 北京 新 街 口 的 情形 显然 很 糟糕 , 但 我 们 对 此 并 不 关心 . 


”事实 上 , 上 面 NFL 定理 的 简短 论述 过 程 中 假设 了 上 的 均匀 分 布 , 而 实际 情 
形 并 非 如 此 . 例如 , 回 到 我 们 熟悉 的 西瓜 问题 , 考虑 {假设 1: 好 瓜 今 (色泽 = *) 
和 (HIER) A ( 敲 声 = 浊 响 )} 和 {假设 2: 好 瓜 O (色泽 = *) A ( 根 蒂 = 硬 挺 ) 
A ( 敲 声 = 清 脆 )}. 从 NEL 定理 可 知 , 这 两 个 假设 同样 好 . 我 们 立即 会 想到 符 
合 条 件 的 例子 , 对 好 瓜 ( 色 泽 = 青 绿 ; Ma WEA; 敲 声 = 浊 啊 ) 是 假设 1 更 好 , 而 


”对 好 瓜 (色泽 = 乌黑 ; 根 带 = 硬挺 ; 敲 声 = 清脆 ) 则 是 假设 2 更 好 . 看 上 去 的 确 是 


这 样 . 然而 需 注 意 到 , “AR Wet; MP VR)” AER E UL, 而 “( 根 
tr TSE; 敲 声 = 清脆 )” 的 好 瓜 罕 见 , 甚至 不 存在 . 


所 以 , NFL 定理 最 重要 的 寓意 , 是 让 我 们 清楚 地 认识 到 , 脱离 具体 问题 , 空 
泛 地 谈论 “什么 学 习 算 法 更 好 ” 毫 无 意义 , 因为 若 考虑 所 有 潜在 的 问题 , 则 所 
有 学 习 算法 都 一 样 好 . 要 谈论 算法 的 相对 优 劣 , 必须 要 针对 具体 的 学 习 问 题 ; 在 
某 些 问题 上 表现 好 的 学 习 算法 , 在 男 一 些 问 题 上 却 可 能 不 尽 如 和 人意 , 学 习 算 法 
目 身 的 归纳 偏好 与 问题 是 否 相 配 , 往往 会 起 到 决定 性 的 作用 . 
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所 谓 “ 知 识 就 是 力量 ”. 


1965 年 ，Feigenbaum 主 
持 研 制 了 世界 上 第 一 个 专 
家 系统 DENDRAL. 


参见 p.22. 


”IWML 后 来 发 展 为 国际 
机 器 学 习 会 议 ICML. 


1.5 发 展 历程 - 


机 器 学 习 是 人 工 智 能 (artificial intelligence) 研 究 发 展 到 一 定 阶段 的 必然 产 
物 . o 年 代 到 七 十 年 代 初 , 人 工 智 能 研究 处 于 “推理 期 ”, 那 时 人 们 
以 为 只 要 能 赋予 机 器 逻辑 推理 能 力 , 机 器 就 能 具有 管 能 . 这 一 阶段 的 代表 性 工 
aa A. Newell 和 HH. Simon 的 “逻辑 理论 家 ”(Logic Theorist) 程 序 以 及 
此 后 的 “通用 问题 求解 ”(General Problem Solving) 程 序 等 , 这 些 工作 在 当时 | 
取得 了 令 人 振奋 的 结果 . 例如 , “逻辑 理论 家 ”程序 在 1952 年 证 明了 著名 数学 
家 罗素 和 怀特 海 的 名 车 《数学 原理 》 中 的 38 条 定理 , 在 1963 年 证 明了 全 部 52 
条 定理 , 特别 值得 一 提 的 是 , 定理 2.85 其 至 比 罗素 和 怀特 海 证 明 得 更 巧妙 . A. 
Newell 和 H. Simon 因为 这 方面 的 工作 获得 了 1975 FARR. 然而 , 随 着 研究 
向 前 发 展 , 人 们 逐渐 认识 到 , 仅 具 有 逻辑 推理 能 力 是 远 远 实现 不 了 人 工 智能 兴 
E. A. Feigenbaum 等 人 认为 , 要 使 机 器 具有 智能 ， 就 必须 设法 使 机 器 拥有 知识 
在 他 们 的 倡导 下 , 从 二 十 世纪 七 十 年 代 中 期 开始 , 人 工 智 能 研究 进入 了 “知识 
期 ”. 在 这 一 时 期 , 大 量 专家 系统 问世 , 在 很 多 应 用 领域 取得 了 大 量 成 果 . E. A. 
Feigenbaum 作为 “知识 工程 ”之 父 在 1994 年 获得 图 灵 奖 . 但 是 , 人 们 逐渐 认 
识 到 , 专家 系统 面临 “知识 工程 瓶 贷 ”, 简单 地 说 , 就 是 由 人 来 把 知识 总 结 出 来 


”再 教 给 计算 机 是 相当 困难 的 . 于 是 , 一 些 学 者 想到 , 如 果 机 器 自己 能 够 学 习 知 识 


该 多 好 ! 

事实 上 , ARE 1950 年 关于 图 灵 测 试 的 文章 中 , 就 曾 提 到 了 机 器 学 习 的 可 
能 ; 二 十 世纪 五 十 年 代 初 已 有 机 器 学 习 的 相关 研究 , 例如 A. Samuel 著名 的 跳 
棋 程 序 . 五 十 年 代 中 后 期 ， 基于 神经 网 络 的 “连接 主义 ” (connectionism) 学 习 
开始 出 现 , 代表 性 工作 有 F. Rosenblatt 的 感知 机 (Perceptron)、B. Widrow 的 
Adaline 等 . 在 六 七 十 年 代 , 基于 逻辑 表示 的 “符号 主义 ”(symbolism) 学 习 技 
ATER RIE, 代表 性 工作 有 P. Winston 的 “结构 学 习 系统 ”、R. S. Michalski 
等 人 的 “基于 逻辑 的 归纳 学 习 系 统 ”、E. B. Hunt 等 人 的 “概念 学 习 系 统 ” 


”等 ; 以 决策 理论 为 基础 的 学 习 技 术 以 及 强化 学 习 技术 等 也 得 到 发 展 , 代表 性 工 


作 有 N. J. Nilson 的 “学 习 机 器 ”等 ; 二 十 多 年 后 红 极 一 时 的 统计 学 习 理论 人 的 
一 些 黄 基 性 结果 也 是 在 这 个 时 期 取得 的 . 


1980 年 夏 , 在 美国 卡耐基 梅 隆 大 学 举行 了 第 一 届 机 器 学 习 研讨 会 WML); 


同年 ,，《 策 略 分 析 与 信息 系统 》 连 出 三 期 机 器 学 习 专 辑 ; 1983 年 , Tioga 出 版 社 


出 版 了 R.S. Michalski, J. G. Carbonell 和 T. Mitchel 主编 的 《机 器 学 习 : 一 
种 人 工 智能 途径 》[Michalski et al., 1983], 对 当时 的 机 器 学 习 研究 工作 进行 了 


总 结 ; 1986 年 , 第 一 本 机 器 学 习 专 业 期 刊 Machine Beara 创刊 ; 1989 F, 人 
ww ai bot. com TW OOO00 
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工 智能 领域 的 权威 期 刊 Artificial Intelligence 出 版 机 器 学 习 专 辑 , 刊 发 了 当时 
一 些 比较 活跃 的 研究 工作 , 其 内 容 后 来 出 现在 J. G. Carbonell 主编 、MIT 出 
版 社 1990 年 的 《机 器 学 习 : 范 型 与 方法 》[Carbonell, 1990] 一 书 中 . 总 的 来 看 ， 
二 十 世纪 八 十 年 代 是 机 器 学 习 成 为 一 个 独立 的 学 科 领 域 、 各 种 机 器 学 习 技术 
百花 初 绽 的 时 期 . 


R. S. Michalski 等 人 [Michalski et al., 1983] 把 机 器 学 习 研 究 划分 为 “从 样 
例 中 学 习 ”“ 在 问题 求解 和 规划 中 学 习 ”“ 通 过 观察 和 发 现 学 习 ”“ 从 指令 
中 学 习 ” 等 种 类 ; E. A. Feigenbaum 等 人 在 著名 的 《人 工 智能 手册 》( 第 三 卷 ) 
[Cohen and Feigenbaum, 1983] F, 则 把 机 器 学 习 划 分 为 “机 械 学 习 ” “ 示 教 
学 习 ” “类 比 学 习 ” 和 “归纳 学 习 ”. 机 械 学 习 亦 称 “ 死 记 硬 背 式 学 习 ”, 即 
把 外 界 输 入 的 信息 全 部 记录 下 来 , 在 需要 时 原封 不 动 地 取出 来 使 用 , 这 实际 上 
没有 进行 真正 的 学 习 , 仅 是 在 进行 信息 存储 与 检索 ; 示 教 学 习 和 类 比 学 习 类 似 
F R. S. Michalski 等 人 所 说 的 “从 指令 中 学 习 ” 和 “通过 观察 和 发 现 学 习 ”; 
归纳 学 习 相 当 于 “从 样 例 中 学 习 ”, 即 从 训练 样 例 中 归纳 出 学 习 结 果 . 二 十 世 
纪 八 十 年 代 以 来 , 被 研究 最 多 、 应 用 最 广 的 是 “从 样 例 中 学 习 ”( 也 就 是 广义 
的 归纳 学 习 ), 它 涵盖 了 监督 学 习 、 无 监督 学 习 等 , 本 书 大 部 分 内 容 均 属 此 范畴 . 
下 面 我 们 对 这 方面 主流 技术 的 演进 做 一 个 简单 回顾 . 


在 二 十 世纪 八 十 年 代 , “从 样 例 中 学 习 ” 的 一 大 主流 是 符号 主义 学 习 ， 
其 代表 包括 决策 树 (decision tree) 和 基于 逻辑 的 学 习 . 典型 的 决策 树 学 习 以 信 
息 论 为 基础 , WF ANB 目标 , 直接 模拟 了 人 类 对 概念 进行 判定 的 
树 形 流程 . 基于 人 逻辑 的 学 习 的 著名 代表 是 归纳 逻辑 程序 设计 (Inductive Logic 
Programming, 简称 ILP), 可 看 作 机 器 学 习 与 逻辑 程序 设计 的 交叉 , 它 使 用 一 
阶 逻 辑 ( 即 谓词 逻辑 ) 来 进行 知识 表示 , 通过 修改 和 扩充 逻辑 表达 式 (例如 Prolog 
表达 式 ) 来 完成 对 数据 的 归纳 . 符号 主义 学 习 占据 主流 地 位 与 整个 人 工 智能 领域 
的 发 展 历程 是 分 不 开 的 . 前 面 说 过 , 人 工 智 能 在 二 十 世纪 五 十 到 八 十 年 代 经 历 
了 “推理 期 ”和 “知识 期 ”, 在 “推理 期 ”人 们 基于 符号 知识 表示 、 通 过 演绎 
推理 技术 取得 了 很 大 成 就 , 而 在 “知识 期 ”人 们 基于 符号 知识 表示 、 通 过 获取 
和 利用 领域 知识 来 建立 专家 系统 取得 了 大 量 成 果 , 因此 , 在 “学 习 期 ”的 开始 ， 
符号 知识 表示 很 自然 地 受到 青睐 . 事实 上 , 机 器 学 习 在 二 十 世纪 八 十 年 代 正 是 
被 视 为 “解决 知识 工程 瓶颈 问题 的 关键 ”而 走 上 人 工 智能 主 舞 台 的 . 决策 树 学 
习 技 术 由 于 简单 易 用 , 到 今天 仍 是 最 常用 的 机 器 学 习 技 术 之 一 . ILP 具有 很 强 
的 知识 表示 能 力 , 可 以 较 容 易 地 表达 出 复杂 数据 关系 , 而 且 领 域 知识 通常 可 方 


便 地 通过 逻辑 表达 式 进 行 描 述 , 因此 , ILP 不 仅 可 利用 领域 知识 辅助 学 习 , 还 可 
ww ai bbt. com FOOOO00 | 
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参见 习题 6.5. 


Fig & it 


通过 学 习 对 领域 知识 进行 精 化 和 增强 ; 然而 , Bt PAT. Ct RAAT, 由 于 表示 能 
力 太 强 , 直接 导致 学 习 过 程 面临 的 假设 空间 太 大 、 复 杂 度 极 高 , 因此 , 问题 规模 


稍 大 责难 以 有 效 进行 学 习 , 九 十 年 代 中 期 后 这 方面 的 研究 相对 陷入 低潮 . 


二 十 世纪 九 十 年 代 中 期 之 前 , “从 样 例 中 学 习 ” 的 另 一 主流 技术 是 基于 神 
经 网 络 的 连接 主义 学 习 . 连接 主义 学 习 在 二 十 世纪 五 十 年 代 取得 了 大 发 展 , 但 
因为 早期 的 很 多 人 工 智能 研究 者 对 符号 表示 有 特别 偏爱 , 例如 图 灵 奖 得 主 HH 


”Simon 曾 断 言 人 工 智能 是 研究 “对 智能 行为 的 符号 化 建 模 ”, 所 以 当时 连接 主 


义 的 研究 未 被 纳入 主流 人 工 智能 研究 范畴 . 尤其 是 连接 主义 自身 也 遇 到 了 很 大 
的 障碍 , 正如 图 灵 奖 得 主 M. Minsky 和 S. Papert 在 1969 年 指出 , (当时 的 ) 神 经 
网 络 只 能 处 理 线 性 分 类 , 甚至 对 “ 异 或 ”这 么 简单 的 问题 都 处 理 不 了 . 1983 F, 


J.J. Hopfield 利用 神经 网 络 求解 “流动 推销 员 问 题 ” 这 个 闭 名 的 NP 难题 取得 


重大 进展 , 使 得 连接 主义 重新 受到 人 们 关注 . 1986 F, D. E. Rumelhart 等 人 重 


新 发 明了 著名 的 BP 算法 , 产生 了 深远 影响 . 与 符号 主义 学 习 能 产生 明确 的 概 
” 念 表示 不 同 , 连接 主义 学 习 产 生 的 是 “黑箱 ”模型 , 因此 从 知识 获取 的 角度 来 


看 , 连接 主义 学 习 技 术 有 明显 弱点 ; 然而 , 由 于 有 BP 这 样 有 效 的 算法 , 使 得 它 


可 以 在 很 多 现实 问题 上 发 挥 作用 .事实 上 , BP 一 直 是 被 应 用 得 最 广泛 的 机 器 


学 习 算 法 之 一 . 连接 主义 学 习 的 最 大 局 限 是 其 “ 试 错 性 ”; 简单 地 说 , 其 学 习 过 


_ 程 涉及 大 量 参数 , 而 参数 的 设置 缺乏 理论 指导 ， ese PL “ 调 参 ”; 夸张 一 点 
说 , BH LEZ SE, 学 习 结 朱 可 能 次 以 干 里 ， 


二 十 世纪 九 十 年 代 中 期 “ 统 计 学 学 习 ”(statistical learning) 闪 党 登场 并 


迅速 占据 主流 舞台 , 代表 性 技术 是 支持 向 量 机 (Support Vector Machine, 简称 


SVM) 以 及 更 一 般 的 “ 核 方法 ”(kernel methods). 这 方面 的 研究 早 在 二 十 世 
纪 六 七 十 年 代 就 已 开始 , 统计 学 习 理论 [Vapnik, 1998] 在 那个 时 期 也 已 打下 
了 基础 , 例如 V.N. Vapnik 在 1963 年 提出 了 “支持 向 量 ” 概念 , 他 和 A. J. 
Chervonenkis 在 1968 年 提出 VC 维 , 在 1974 年 提出 了 结构 风险 最 小 化 原则 等 


“但 直到 九 十 年 代 中 期 统计 学 习 才 开始 成 为 机 器 学 习 的 主流 , 一 方面 是 由 于 有 效 


的 支持 向 量 机 算法 在 九 十 年 代 初 才 被 提出 , 其 优越 性 能 到 九 十 年 代 中 期 在 文 


本 分 类 应 用 中 才 得 以 显现 ; 另 一 方面 , 正 是 在 连接 主义 学 习 技术 的 局 限 性 凸显 


之 后 , 人 们 才 把 目光 转向 了 以 统计 学 习 理论 为 直接 支撑 的 统计 学 习 技 术 . 事实 
上 , 统计 学 习 与 连接 主义 学 习 有 密切 的 联系 . 在 支持 向 量 机 被 普遍 接受 后 , 核 技 


| 巧 (kernel trick) 被 人 们 用 到 了 机 器 学 习 的 几乎 每 一 个 角 落 ， i 方法 也 逐渐 成 为 


机 器 学 习 的 基本 内 容 之 一 . 


有 趣 的 是 , 二 十 一 世纪 初 ， 连接 主义 学 习 又 卷 十 重 来 掀起 了 以 “深度 学 
ww ai bet. com DOONAN T 
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J” 为 名 的 热潮 . 所 谓 深度 学 习 , 狭义 地 说 就 是 “很 多 层 ”的 神经 网 络 . 在 若 


干 测试 和 竞赛 上 , 尤其 是 涉及 语音 、 图 像 等 复杂 对 象 的 应 用 中 , 深度 学 习 技 术 
取得 了 优越 性 能 . 以 往 机 器 学 习 技术 在 应 用 中 要 取得 好 性 能 , 对 使 用 者 的 要 求 
较 高 ; 而 深度 学 习 技术 涉及 的 模型 复杂 度 非常 高 , 以 至 于 只 要 下 工夫 “ 调 参 ”， 
把 参数 调节 好 , 性 能 往往 就 好 . 因此 , 深度 学 习 虽 缺乏 严格 的 理论 基础 , 但 它 显 
著 降低 了 机 器 学 习 应 用 者 的 门槛 , 为 机 器 学 习 技术 走向 工程 实践 带 来 了 便利 . 
MA, 它 为 什么 此 时 才 热 起 来 呢 ? 有 两 个 基本 原因 : 数据 大 了 、 计 算 能 力 强 了 . 
深度 学 习 模型 拥有 大 量 参数 , 若 数据 样本 少 , 则 很 容易 “过 拟 合 ” ; 如 此 复杂 名 
模型 、 如 此 大 的 数据 样本 , 若 缺 乏 强力 计算 设备 , 根本 无 法 求解 . 恰 由 于 人 类 进 _ 
入 了 “大 数据 时 代 ”, 数据 储量 与 计算 设备 都 有 了 大 发 展 , 才 使 得 连接 主义 学 
习 技 术 焕发 又 一 春 . 有 趣 的 是 , 神经 网 络 在 二 十 世纪 八 十 年 代 中 期 走红 , 与 当时 
Intel x86 系列 微 处 理 器 与 内 存 条 技术 的 广泛 应 用 所 造成 的 计算 能 力 、 数 据 访 
存 效 率 比 七 十 年 代 有 显著 提高 不 无 关联 . 深度 学 习 此 时 的 状况 , 与 彼 时 的 神经 
网 络 何其 相似 . | 

需 说 明 的 是 , 机 器 学 习 现在 已 经 发 展 成 为 一 个 相当 大 的 学 科 领 域 , 本 节 仅 
LEAN, 很 多 重要 技术 都 没有 谈 及 , 耐心 的 读者 在 读 完 本 书后 会 有 更 全 面 
的 了 解 . | 


1.6 应 用 现状 


在 过 去 二 十 年 中 , 人 类 收集 、 存 储 、 传 输 、 处 理 数据 的 能 力 取得 了 飞速 提 
Ft, 人 类 社会 的 各 个 角落 都 积累 了 大 量 数据 , 亟 需 能 有 效 地 对 数据 进行 分 析 利 
用 的 计算 机 算法 , 而 机 器 学 习 恰 顺 应 了 大 时 代 的 这 个 迫切 需求 , 因此 该 学 科 领 
域 很 自然 地 取得 巨大 发 展 、 受 到 广泛 关注 . | 

今天 , 在 计算 机 科学 的 诸多 分 支 学 科 领 域 中 , 无 论 是 多 媒体 、 图 形 学 , 还 是 
网 络 通信 、 软 件 工程 , 乃至 体系 结构 、 芯 片 设计 , 都 能 找到 机 器 学 习 技术 的 身 


影 , 尤其 是 在 计算 机 视觉 、 自 然 语 言 处 理 等 “计算 机 应 用 技术 ”领域 , 机 器 学 


习 已 成 为 最 重要 的 技术 进步 源泉 之 一 . | 

”机 器 学 习 还 为 许多 交叉 学 科 提 供 了 重要 的 技术 支撑 . 例如, “生物 信息 
学 ”试图 利用 信息 技术 来 研究 生命 现象 和 规律 , 而 基因 组 计划 的 实施 和 基因 药 
物 的 美好 愿景 让 人 们 为 之 心潮 滚 涛 . 生物 信息 学 研究 涉及 从 “生命 现象 ”到 
“规律 发 现 ” 的 整个 过 程 , 其 间 必 然 包 括 数 据 获 取 、 数 据 管理 、 数 据 分 析 、 仿 
真实 验 等 环节 , 而 “数据 分 析 ” 恰 是 机 器 学 习 技术 的 舞台 , 各 种 机 器 学 习 技术 


已 经 在 这 个 舞台 上 大 放 蜡 彩 . 
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NASA-JPL 的 全 称 是 美 
国航 空 航 天 局 喷气 推进 实 
ee, 著名 的 “勇气 ”号 
和 和“ 机遇” 号 火星 机 器 人 


均 是 在 这 个 实验 室 研 制 的 .- 


”” DARPA 的 全 称 是 美国 
- 国防 部 先进 研究 计划 局 ， 
互联 网 、 全 球 卫 星 定位 系 
统 等 都 源 于 DARPA 启动 
的 研究 项 目 . 


机 器 学 习 提供 数据 分 析 
能 力 , 云 计算 提供 数据 处 
理 能 力 , 众 包 提供 数据 标 
记 能 力 . 


“数据 挖 握 ” 这 个 词 很 
早 就 在 统计 学 界 出 现 并 略 
带 贬义 , 这 是 由 于 传统 统 
计 学 研究 往往 醉心 于 理论 
的 优美 而 忽视 实际 效用 . 


”但 最 近 情 况 发 生变 化 , 越 


”来 越 多 的 统计 学 家 开始 关 


注 现 实 问 题 , 进入 机 器 学 


习 和 数据 挖掘 领域 . 
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事实 上 , 随 看 科学 研究 的 基本 手段 从 传统 的 “理论 十 实验” 走 加 现在 的 


“ “理论 + 实验 二 计算”, 乃至 出 现 “数据 科学 ”这 样 的 提 法 , 机 器 学 习 的 重要 


性 日 趋 显著 , 因为 “计算 ”的 目的 往往 是 数据 分 析 , 而 数据 科学 的 核心 也 恰 是 
通过 分 析 数 据 来 获得 价值 . 大 要 列 出 目前 计算 机 科学 技术 中 最 活跃 、 最 受 瞩 
目的 研究 分 支 , 那么 机 器 学 习 必 居 其 中 ，2001 E, 美国 NASA-JPL 的 科学 家 
在 Science 杂志 上 专门 撰文 [Mjolsness and DeCoste, 2001] 指出 , 机 器 学 习 对 


科学 研究 的 整个 过 程 正 起 到 越 来 越 大 的 支撑 作用 , 其 进展 对 科技 发 展 意义 重大 . 


2003 年 , DARPA 启动 PAL 计划 , 将 机 器 学 习 的 重要 性 上 升 到 美国 国家 安全 的 
高 度 来 考虑 . 众所周知 , 美国 最 尖端 科技 的 研究 通常 是 由 NASA M DARPA 推 
进 的 , 而 这 两 大 机 构 不 约 而 同 地 强调 机 器 学 习 的 重要 性 , 其 意义 不 言 而 喻 . 

2006 年 , 卡耐基 梅 隆 大 学 宣告 成 立 世界 上 第 一 个 “机 器 学 习 系 ”, 机 器 学 
习 领 域 莫 基 人 之 一 TT. Mitchell 教授 出 任 首 任 系 主任 . 2012 年 3 月 , 美国 奥巴马 
政府 启动 “大 数据 研究 与 发 展 计划 ”, 美国 国家 科学 基金 会 旋即 在 加 州 大 学 伯 
克利 分 校 启动 加 强 计划 , 强调 要 深入 研究 和 整合 大 数据 时 代 的 三 大 关键 技术 : 
机 器 学 习 、 云 计算 、 众 包 (crowdsourcing). 显然 , 机 器 学 习 在 大 数据 时 代 是 必 
不 可 少 的 核心 技术 , 道理 很 简单 : 收集 、 存 储 、 传 输 、 管 理 大 数据 的 目的 , 是 为 
了 “利用 ”大 数据 , 而 如 果 没 有 机 器 学 习 技术 分 析 数据 , 则 “利用 ”无 从 谈 起 . 


谈 到 对 数据 进行 分 析 利用 , 很 多 人 会 想到 “数据 挖掘 ”(data mining), 这 


里 简单 探讨 一 下 数据 控 气 与 机 器 学 习 的 联系 . 数据 挖掘 领域 在 二 十 世纪 九 十 年 


RER, 它 受到 很 多 学 科 领 域 的 影响 , 其 中 数据 库 、 机 器 学 习 、 统 计 学 无 疑 影 
响 最 大 [Zhou, 2003]. 数据 挖 据 是 从 海量 数据 中 发 气 知 识 , 这 就 必然 涉及 对 “ 海 
量 数据 ”的 管理 和 分 析 . 大 体 来 说 , 数据 库 领 域 的 研究 为 数据 挖掘 提供 数据 管 
理 技术 , 而 机 器 学 习 和 统计 学 的 研究 为 数据 挖掘 提供 数据 分 析 技术 . 由 于 统计 
学 界 的 研究 成 果 通 常 需要 经 由 机 器 学 习 研 究 来 形成 有 效 的 学 习 算法 , 之 后 再 进 
入 数据 挖掘 领域 , 因此 从 这 个 意义 上 说 , 统计 学 主要 是 通过 机 器 学 习 对 数据 控 
掘 发 挥 影 响 , 而 机 器 学 习 领 域 和 数据 库 领 域 则 是 数据 挖掘 的 两 大 支撑 . 

今天 , 机 器 学 习 已 经 与 普通 人 的 生活 密切 相关 . 例如 在 天 气 预 报 、 能 源 萝 
探 、 环 境 监 测 等 方面 , 有 效 地 利用 机 器 学 习 技 术 对 卫星 和 传感器 发 回 的 数据 进 
行 分 析 , 是 提高 预报 和 检测 准确 性 的 重要 途径 ; 在 商业 营销 中 , 有 效 地 利用 机 器 
学 习 技 术 对 销售 数据 、 客 户 信 息 进 行 分 析 , 不 仅 可 帮助 商家 优化 库存 降低 成 本 ， 
还 有 助 于 针对 用 户 群 设计 特殊 营销 策略 ; …… 下 面 再 举 几 例 : 


众所周知 , 谷歌 、 百 度 等 互联 网 搜索 引擎 已 开始 改变 人 类 的 生活 方式 , 例 


如 很 多 人 已 习惯 于 在 出 行 前 通过 互联 网 搜索 来 了 解 目的 地 信息 、 寻 找 合 适 的 
ww ai bbt.com 000000 





1.6 ”应 用 现状 


例如 著名 机 器 学 习 教 科 
书 [Mitchell, 1997] 4.2 节 介 
绍 了 二 十 世纪 九 十 年 代 早 
期 利用 神经 网 络 学 习 来 控 


制 自动 驾驶 车 的 ALVINN © 
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酒店 、 和 餐馆 等 . 美国 《新 闻 周 刊 》 曾 对 谷歌 有 一 句 话 评论 : “EEE ARE 
何 问题 的 答案 间 的 距离 变 得 只 有 氮 击 一 下 鼠标 这 人 么 远 .” 显 然 , 互联 网 搜索 是 
通过 分 析 网 络 上 的 数据 来 找到 用 户 所 需 的 信息 , 在 这 个 过 程 中 , 用 户 查 询 是 输 
入 、 搜 索 结果 是 输出 , 而 要 建立 输入 与 输出 之 间 的 联系 , 内 核 必 然 需 要 机 器 学 
JER. 事实 上 , 互联 网 搜索 发 展 至 今 , 机 器 学 习 技 术 的 支撑 居 功 至 伟 . BTS 
R, 搜索 的 对 象 、 内 容 日 趋 复杂 , 机 器 学 习 技术 的 影响 更 为 明显 , 例如 在 进行 
“图 片 搜 索 ” 时 , 无 论 谷歌 还 是 百度 部 在 使 用 最 新 潮 的 机 器 学 习 技 术 . 谷歌 、 
百度 、 脸 书 、 雅 虎 等 公司 纷纷 成 立 专 攻 机 器 学 习 技 术 的 研究 团队 , 甚至 直接 以 


机 器 学 习 技术 命名 的 研究 院 , 充分 体现 出 机 器 学 习 技术 的 发 展 和 应 用 , 甚至 在 


一 定 程度 上 影响 了 互联 网 产业 的 走向 . 
再 举 一 例 .车 祸 是 人 类 最 凶险 的 杀手 之 一 , 全 世界 每 年 有 上 百 万 们 生 车 


轮 , 仅 我 国 每 年 就 有 约 十 万 人 死 于 车 祸 . 由 计算 机 来 实现 自动 汽车 驾驶 是 一 个 


理想 的 方案 , AAAS LANA ARTE PFS. AERTS, 更 不 会 
酒 后 驾驶 , 而 且 还 有 重要 的 军事 用 途 . 美国 在 二 十 世纪 八 十 年 代 就 开始 进行 这 
方面 研究 . 这 里 最 大 的 困难 是 无 法 在 汽车 厂 里 事先 把 汽车 上 路 后 所 会 遇 到 的 所 
有 情况 都 考虑 到 、 设 计 出 处 理 规则 并 加 以 编程 实现 , 而 只 能 根据 上 路 时 遇 到 的 
情况 即时 处 理 . 若 把 车 载 传 感 器 接收 到 的 信息 作为 输入 , 把 方 和 向、 刹车、 油门 
的 控制 行为 作为 输出 , 则 这 里 的 关键 问题 恰 可 抽象 为 一 个 机 器 学 习 任 务 . 2004 
年 3 月 , 在 美国 DARPA 组 织 的 自动 驾驶 车 比赛 中 , 斯 坦 福 大 学 机 器 学 习 专家 
S. Thrun 的 小 组 研制 的 参赛 车 用 6 小 时 53 分 钟 成 功 走 完了 132 英里 赛程 获得 
冠军 . 比赛 路 段 是 在 内 华 达 州 西 南部 的 山区 和 沙漠 中 , 路 况 相 当 复 杂 , 在 这 样 的 
路 段 上 行车 即使 对 经 验 丰富 的 人 类 司机 来 说 也 是 一 个 挑战 . S. Thrun 后 来 到 谷 
歌 领导 目 动 驾驶 车 项 目 团 队 . 值得 一 提 的 是 , 上 自动 驾驶 车 在 近 几 年 取得 了 飞跃 
式 发 展 , 除 谷歌 外 , 通用 、 奥 迪 、 大 众 、 宝马 等 传统 汽车 公司 均 投 入 巨 资 进行 

研发 , 目前 已 开始 有 产品 进入 市 场 . 2011 年 6 H, 美国 内 华 达 州 议 会 通过 法 案 ， 
成 为 美国 第 一 个 认可 目 动 驾 驶 车 的 州 , 此 后 , 夏威夷 州 和 佛罗里达 州 也 先后 通 


， 过 类 似 法 案 . 目 动 驾驶 汽车 可 望 在 不 久 的 将 来 出 现在 普通 人 的 生活 中 , 而 机 器 


学 习 技 术 则 起 到 了 “司机 ”作用 . 


机 器 学 习 技术 甚至 已 影响 到 人 类 社会 政治 生活 . 2012 年 关 国 大 选 期 间 , K 
巴 马 麻 下 有 一 支 机 器 学 习 团 队 , 他 们 对 各 类 选 情 数据 进行 分 析 , 为 奥巴马 提示 
下 一 步 竞 选 行动 . 例如 他 们 使 用 机 器 学 习 技术 分 析 社 交 网 络 数据 , 判断 出 在 总 
统 候选 人 第 一 次 辩论 之 后 哪些 选民 会 倒戈 , 并 根据 分 析 的 结果 开发 出 个 性 化 宣 


传 策略 , f BA aa a 他 们 基于 机 器 学 习 模 
WW al com 





16 


WEKA 是 著名 的 免费 
机 器 学 习 算 法 程序 库 ， 由 
新 西 兰 Waikato 大 学 研 
究 人 员 基 于 JAVA FA: 
http: //www.cs.waikato. 
ac.nz/ml/weka/. 


第 1 章 绪 论 


型 的 分 析 结 果 提 示 奥 巴 马 应 去 何 处 开展 拉票 活动 , 有 些 建议 甚至 让 专业 竞选 顾 
间 大 吃 一 惊 , 而 结果 表明 去 这 些 地 方 大 有 收获 , 总 统 选举 需要 大 量 金钱 , 机 器 


学 习 技术 在 这 方面 发 挥 了 奇效 . 例如, 机 器 学 习 模型 分 析出 , 某 电影 明星 对 某 


地 区 某 年 龄 段 的 特定 人 群 很 有 吸引 力 , 而 这 个 群体 很 愿意 出 高 价 与 该 明星 及 奥 
巴 马 共 进 晚餐 …… 果 然 , 这 样 一 次 筹资 晚宴 成 功 募集 到 1500 万 美元 ; RA, 借 
助 机 器 学 习 模 型 ,奥巴马 筹 到 了 创 纪录 的 10 亿美 元 竞选 经 费 . 机 器 学 习 技 术 不 
仅 有 助 于 竞选 经 费 “ 开 源 ”, 还 可 帮助 “ 节 流 ”, 例如 机 器 学 习 模型 通过 对 不 
同 群体 选民 进行 分 析 , 建议 购买 了 一 些 冷门 节目 的 广告 时 段 , 而 没有 采用 在 昂 
贵 的 黄金 时 段 购买 广告 的 传统 做 法 , 使 得 广告 资金 效率 相 比 2008 年 竞选 提高 
了 14%; …… 胜 选 后 《时代 》 周 刊 专门 报道 了 这 个 被 奥巴马 称 为 “竞选 核武 
器 ”、 由 半 监 督学 习 研 究 专 家 R. Ghani 领导 的 团队 . 

值得 一 提 的 是 , 机 器 学 习 备 受 瞩目 当然 是 由 于 它 已 成 为 智能 数据 分 析 技术 
的 创新 源泉 , 但 机 器 学 习 研究 还 有 另 一 个 不 可 忽视 的 意义 , 即 通过 建立 一 些 关 
于 学 习 的 计算 模型 来 促进 我 们 理解 “人 类 如 何 学 习 ”. 例如 , P. Kanerva 在 二 
十 世纪 八 十 年 代 中 期 提出 SDM (Sparse Distributed Memory) 模 型 [Kanerva， 
1988] 时 并 没有 刻意 模仿 脑 生理 结构 , 但 后 来 神经 科学 的 研究 发 现 , SDM 的 稀 
玻 编码 机 制 在 视觉 、 听 觉 、 嗅 觉 功 能 的 脑 皮层 中 广泛 存在 , 从 而 为 理解 脑 的 某 
些 功能 提供 了 一 定 的 启发 . 自然 科学 研究 的 驱动 力 归 结 起 来 无 外 是 人 类 对 宇宙 


本 源 、 万 物 本 质 、 生 命 本 性 、 自 我 本 识 的 好 奇 , 而 “人 类 如 何 学 习 ” 无 疑 是 一 


个 有 关 自 我 本 识 的 重大 问题 . 从 这 个 意义 上 说 , 机 器 学 习 不 仅 在 信息 科学 中 占 


有 重要 地 位 , 还 具有 一 定 的 自然 科学 探索 色彩 


1.7 阅读 材料 


[Mitchell，1997] 是 第 一 本 机 器 学 习 专门 性 教材 , [Duda et al., 2001; Al- 
paydin, 2004; Flach, 2012] 都 是 出 色 的 入 门 读物 . [Hastie et al., 2009] 是 很 好 
的 进 阶 读物 , [Bishop, 2006] 也 很 有 参考 价值 , 尤其 适合 于 贝 叶 斯 学 习 偏 好 者 . 
[Shalev-Shwartz and Ben-David, 2014] 则 适合 于 理论 偏好 者 . [Witten et al., 
2011] 是 基于 WEKA 撰写 的 入 门 读物 , 有 助 于 初学 者 通过 WEKA 实践 快速 党 
握 常 用 机 器 学 习 算 法 . \ l 

本 书 1.5 和 1.6 节 主 要 取材 于 [周志 华 , 2007]. 《机 器 学 习 : 一 种 人 工 智 能 
途径 》[Michalski et al., 1983] 汇集 了 20 位 学 者 撰写 的 16 篇 文章 , 是 机 器 学 习 


早期 最 重要 的 文献 .该 书 出 版 后 产生 了 很 大 反响 , Morgan Kaufmann 出 版 社 后 


来 分 别 于 1986 年 和 1990 年 出 版 了 该 书 的 续篇 , 编 为 第 二 卷 和 第 三 卷 ' CAL 
ww ai bbt.com 000000 
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智能 手册 》 系列 是 图 灵 奖 得 主 卫 . A. Feigenbaum 与 不 同学 者 合作 编写 而 成 , 该 
书 第 三 卷 [Cohen and Feigenbaum, 1983] 对 机 器 学 习 进 行 了 讨论 , 是 机 器 学 习 
早期 的 重要 文献 . [Dietterich, 1997] 对 机 器 学 习 领 域 的 发 展 进 行 了 评述 和 展望 . 
早期 的 很 多 文献 在 今天 仍 值得 重视 , 一 些 办 光 的 思想 在 相关 技术 进步 后 可 能 ; 
发 新 的 活力 , 例如 近来 流行 的 “迁移 学 习 ”(transfer learning) [Pan and Yang, 
2010], 恰似 “类 比 学 习 ”(learning by analogy) 在 统计 学 习 技 术 大 发 展 后 的 升 
级 版 ; 红 极 一 时 的 “深度 学 习 ”(deep learning) 在 思想 上 并 未 显著 超越 二 十 世 
纪 八 十 年 代 中 后 期 神经 网 络 学 习 的 研究 . 


”机 器 学 习 中 关于 概念 学 习 的 研究 开始 很 早 , 从 中 产生 的 不 少 思想 对 整个 
领域 都 有 深远 影响 . 例如 作为 主流 学 习 技术 之 一 的 决策 树 学 习 , 就 起 源 于 关 
于 概念 形成 的 树 结构 研究 [Hunt and Hovland, 1963]. [Winston, 1970] 在 著 
名 的 “积木 世界 ”研究 中 , 将 概念 学 习 与 基于 泛 化 和 特 化 的 搜索 过 程 联系 起 
来 . [Simon and Lea, 1974] 较 早 提出 了 “学 习 ” 是 在 假设 空间 中 搜索 的 观点 . 
[Mitchell, 1977] 稍 后 提出 了 版 本 空间 的 概念 . 概念 学 习 中 有 很 多 关于 规则 学 习 
的 内 容 . 


奥 卡 姆 剃刀 原则 主张 选择 与 经 验 观 察 一 致 的 最 简单 假设 , 它 在 自然 科学 如 
物理 学 、 天 文学 等 领域 中 是 一 个 广 为 沿 用 的 基础 性 原则 , 例如 哥 白 尼 坚 持 “ 日 
心 说 ”的 理由 之 一 就 是 它 比 托 勒 密 的 “地 心 说 ”更 简单 且 符 合 天 文 观 测 . 奥 
卡 姆 剃刀 在 机 器 学 习 领 域 也 有 很 多 退 随 者 [Blumer et al., 1996]. 但 机 器 学 习 
中 什么 是 “更 简单 的 ”这 个 问题 一 直 困 扰 着 研究 者 们 , 因此 , 对 奥 卡 姆 剃刀 在 
机 器 学 习 领域 的 作用 一 直 存 在 着 争议 [Webb, 1996; Domingos, 1999]. 需 注意 
的 是 , 奥 卡 姆 剃刀 并 非 科 学 研究 中 唯一 可 行 的 假设 选择 原则 , 例如 证 希腊 哲学 
家 伊 壁 鸠 鲁 ( 公 元 前 341 年 -前 270 年 ) 提 出 的 “多 释 原 则 ”(principle of multiple 
explanations), 主张 保留 与 经 验 观察 一 致 的 所 有 假设 [Asmis, 1984], 这 与 集成 
学 习 (ensemble learning) 方 面 的 研究 更 加 吻合 . 


机 器 学 习 领 域 最 重要 的 国际 学 术 会 议 是 国 际 机 器 学 习 会 议 (ICML)、 国 际 
神经 信息 处 理 系统 会 议 (NIPS) 和 国际 学 习 理 论 会 议 (COLT), 重要 的 区 域 性 会 
议 主 要 有 了 欧洲 机 器 学 习 会 议 (ECML) 和 亚洲 机 器 学 习 会 议 (ACML); 最 重要 的 
国际 学 术 期 刊 是 Journal of Machine Learning Research 和 Machine Learning. 
人 工 智 能 领域 的 重要 会 议 如 IJCAI、AAAI 以 及 重要 期 刊 如 Artificial Intelli- 
gence. Journal of Artificial Intelligence Research, 数据 挖掘 领域 的 重要 会 议 
如 KDD、ICDM 以 及 重要 期 刊 如 ACM Transactions on Knowledge Discovery 


from Data、 Data Mining and Anon age Discovery, 计算 机 视觉 与 模式 识别 
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领域 的 重要 会 议 如 CVPR 以 及 重要 期 刊 如 IEEE Transactions on Pattern 
Analysis and Machine Intelligence, 神经 网 络 领域 的 重要 期 刊 如 Neural Com- 
putation. IEEE Transactions on Neural Networks and Learning Systems 等 
也 经 常 发 表 机 器 学 习 方 面 的 论文 . 此 外 , 统计 学 领域 的 重要 期 刊 如 Annals of 
Statistics 等 也 常 有 关于 统计 学 习 方 面 的 理论 文章 发 表 . 四 

国内 不 少 书籍 包含 机 器 学 习 方 面 的 内 容 , 例如 [ 陆 汝 铃 , 1996]. [ 李 航 , 2012] 
是 以 统计 学 习 为 主题 的 读物 . 国内 机 器 学 习 领 域 最 主要 的 活动 是 两 年 一 次 
的 中 国 机 器 学 习 大 会 (CCML) 以 及 每 年 举行 的 “机 器 学 习 及 其 应 用 ”研讨 
会 (MLA); 很 多 学 术 刊物 都 经 常 刊登 有 关机 器 学 习 的 论文 
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习题 
1.1 
| 1.2 
析 合 范式 即 多 个 合 取 式 
的 析 取 . 


提示 : 注意 宛 余 情况 ， 
如 (A=a)v(A=*) 
与 (4 = *) 等 价 . 


即 不 存在 训练 错误 为 0 1.3 
的 假设 . 


1 .4 


1.5 
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表 1.1 中 若 只 包含 编号 为 1 和 4 的 两 个 样 例 , 试 给 出 相应 的 版 本 空间 
与 使 用 单个 合 取 式 来 进行 假设 表示 相 比 , 使 用 “ 析 合 范式 ”将 使 得 假 


” 设 空间 有 具有 更 强 的 表示 能 力 . 例如 


好 瓜 <> (E= +) 人 ( 根 带 = HEME) A (INT +) ) 
v ( (色泽 = 乌黑 ) 人 ( 根 蒂 = *) A (FEW), 


会 把 “(色泽 = 青绿 ) 人 (A SNE) A (次 声 = 清 脆 )” 以 及 “(色泽 = 
乌黑 ) 人 ( 根 带 = 硬挺 ) A ( 敲 声 = 沉 闽 )” 都 分 类 为 “好 瓜 ”. 者 使 用 最 
多 包含 个 合 取 式 的 析 合 范式 来 表达 表 1.1 西瓜 分 类 问题 的 假设 空 
间 , 试 估算 共有 多 少 种 可 能 的 假设 . 


若 数据 包含 噪声 , 则 假设 空间 中 有 可 能 不 存在 与 所 有 训练 样本 都 一 到 


的 假设 . 在 此 情形 下 , 试 设计 一 种 归纳 偏好 用 于 假设 选择 
AB 1.4 节 在 论述 “没有 免费 的 午餐 ”定理 时 , 默认 使 用 了 “分 类 错 
误 率 ”作为 性 能 度量 来 对 分 类 器 进行 评估 . 若 换 用 其 他 性 能 度量 2, 则 
式 (1.1) 将 改 为 | | 
Fote(LalX,f)= >> >) Pla)é(h(e), f(z) P(h| X, £a) , 
h 2wEx-X 


试 证 明 “ 没 有 免费 的 午餐 定理 ” 仍 成 立 . 


试 述 机 器 学 习 能 在 互联 网 搜索 的 哪些 环节 起 什么 作用 . 
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小 故事 : “机 器 学 习 ” 名 字 的 由 来 

1952 年 , Pes e HBA (Arthur Samuel, 1901—1990) 
在 IBM 公司 研制 了 一 个 西洋 跳棋 程序 , 这 个 程序 具有 自 
学 习 能 力 , 可 通过 对 大 量 棋局 的 分 析 逐 渐 辨 识 出 当前 局 面 
TA “REAL” A “RAL”, 从 而 不 断 提高 弈 棋 水 平 , 并 很 
有 了 了 人 RATAT AAA E. 1956 £, PBA RG 
第 16 章 . (John McCarthy, “ALE EZA” , 1971 年 图 灵 奖 得 主 ) za, 在 标志 :着 人 

工 智能 学 科 诞 生 的 达 特 茅 斯 会 议 上 介绍 这 项 工作 . 萨 绢 尔 发 明了 “机 器 学 习 ” 
这 个 词 , 将 其 定义 为 “不 显 式 编程 地 赋予 计算 机 能 力 的 研究 领域 ”. 他 的 文 
章 “Some studies in machine learning using the game of checkers” 1959 年 在 

”IBM Journal 正式 发 表 后 , 爱德华 。 费 根 鲍 姆 (Edward Feigenbaum, “#1 iA L 
EZR” 1994 年 图 灵 奖 得 主 ) 为 编写 其 巨著 Computers and Thought, 在 1961 
年 洲 请 萨 缘 尔 提供 一 个 该 程序 最 好 的 对 弃 实 例 . Te, 萨 缪 尔 借 机 向 康涅狄格 
州 的 跳棋 冠军 、 当 时 全 美 排名 第 四 的 棋 手 发 起 了 i PAT ERRE 
ES HS RR, 

事实 上 , PRAM RTA TRUE AT 了 重大 影响 还 影响 到 
整个 计算 机 科学 的 发 展 . 早期 计算 机 科学 研究 认为 , 计算 机 不 可 能 完成 事先 没 
有 显 式 编程 好 的 任务 ,而 萨 级 尔 跳棋 程序 否 证 了 这 个 假设 . 另外 , 这 个 程序 是 最 
早 在 计算 机 上 执行 非 数 值 计 算 任务 的 程序 之 一 , 其 敢 辑 指令 设计 思想 极 大 地 影 

“ 响 了 IBM 计算 机 的 指令 集 ,并 很 快 被 其 他 计算 机 的 设计 者 采用 | 
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精度 常 写 为 百分比 形式 
(1 — 4) x 100%. 


这 里 所 说 的 “误差 ” 均 
指 误差 期 望 . | 


在 后 面 的 章节 中 将 介绍 
不 同 的 学 习 算 法 如 何 最 小 
化 经 验 误差 . 


过 拟 合 亦 称 “过 配 ”. 


RWS TSAR “RAL” . 


学 习 能 力 是 否 “ 过 于 强 
大 ”, 是 由 学 习 算 法 和 数 
据 内 涵 共 同 决定 的 


”第 2 章 ”模型 评估 与 选择 


2.1 经 验 误差 与 过 拟 合 


通常 我 们 把 分 类 错误 的 样本 数 占 样本 总 数 的 比例 称 为 “错误 率 ”(error 
rate), 即 如 果 在 mm 个 样本 中 有 a 个 样本 分 类 错误 , 则 错误 率 E = a/m; 相应 的 ， 
1—a/m BRA “FRE” (accuracy), 即 “ 精 度 = 1 一 错误 率 ”. 更 一 般 地 , 我 们 把 
学 习 器 的 实际 预测 输出 与 样本 的 真实 输出 之 间 的 差异 称 为 “误差 ”(error)， 
学 习 器 在 训练 集 上 的 误差 称 为 “训练 误差 ”(training error) 或 “经 验 误 
#” (empirical error), 在 新 样本 上 的 误差 称 为 “ 泛 化 误差 ” (generalization 
error). 显然 , 我 们 希望 得 到 泛 化 误差 小 的 学 习 器 . 然而 , 我 们 事先 并 不 知道 新 
样本 是 什么 样 , 实际 能 做 的 是 努力 使 经 验 误差 最 小 化 . 在 很 多 情况 下 , 我 们 可 以 
学 得 一 个 经 验 误 差 很 小 、 在 训练 集 上 表现 很 好 的 学 习 器 , 例如 甚至 对 所 有 训练 
样本 都 分 类 正确 , 即 分 类 错误 率 为 零 , 分 类 精度 为 100%, 但 这 是 不 是 我 们 想 要 


的 学 习 器 呢 ? 遗憾 的 是 , 这 样 的 学 习 器 在 多 数 情况 下 都 不 好 . 


我 们 实际 希望 的 , 是 在 新 样本 上 能 表现 得 很 好 的 学 习 器 . 为 了 达到 这 个 


目的 , 应 该 从 训练 样本 中 尽 可 能 学 出 适用 于 所 有 潜在 样本 的 “普遍 规律 ”, 这 


样 才能 在 遇 到 新 样本 时 做 出 正确 的 判别 . 然而 , 当 学 习 器 把 训练 样本 学 得 “ 太 
好 ”了 的 时 候 , 很 可 能 已 经 把 训练 样本 自身 的 一 些 特点 当 作 了 所 有 潜在 样本 都 
会 具有 的 一 般 性 质 , 这 样 就 会 导致 泛 化 性 能 下 降 . 这 种 现象 在 机 器 学 习 中 称 为 
“过 拟 合 ”(overfitting). 与 “过 拟 合 ” 相 对 的 是 “ 欠 拟 合 ”(underfitting), 这 
是 指 对 训练 样本 的 一 般 性 质 尚未 学 好 . 图 2.1 给 出 了 关于 过 拟 合 与 欠 拟 合 的 一 
个 便于 直观 理解 的 类 比 . | 

有 多 种 因素 可 能 导致 过 拟 合 , 其 中 最 常见 的 情况 是 由 于 学 习 能 力 过 于 强大 ， 
以 至 于 把 训练 样本 所 包含 的 不 太一 般 的 特性 都 学 到 了 , 而 欠 拟 合 则 通常 是 由 
于 学 习 能 力 低下 而 造成 的 . 欠 拟 合 比较 容易 克服 , 例如 在 决策 树 学 习 中 扩展 分 
支 、 在 神经 网 络 学 习 中 增加 训练 轮 数 等 , 而 过 拟 合 则 很 麻烦 . 在 后 面 的 学 习 中 
我 们 将 看 到 , 过 拟 合 是 机 器 学 习 面 临 的 关键 障碍 , 各 类 学 习 算 法 都 必然 带 有 一 
些 针对 过 拟 合 的 措施 ; 然而 必须 认识 到 , 过 拟 合 是 无 法 彻底 避免 的 , 我 们 所 能 做 
的 只 是 “缓解 ”, 或 者 说 减 小 其 风险 . 关于 这 一 点 , 可 大 致 这 样 理 解 : 机 器 学 习 


”面临 的 问题 通常 是 NP 难 其 至 更 难 , 而 有 效 的 学 习 算法 必然 是 在 多 项 式 时间 内 
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在 现实 任务 中 往往 还 会 
考虑 时 间 开 销 、 存 储 开 
销 、 可 解释 性 等 方面 的 因 
素 , 这 里 暂且 只 考虑 泛 化 
RE. 


第 2 章 模型 评估 与 选择 


过 拟 合 模型 分 类 结果 : 
> 不 是 树叶 
( 误 以 为 树叶 必须 有 锯齿 ) 


有 和 拟 合 模型 分 类 结果 : 
fg ae ed -> 是 树叶 
É ( 误 以 为 绿色 的 都 是 树叶 ) 





图 2.1 过 拟 合 、 欠 拟 合 的 直观 类 比 


运行 完成 , 知 可 彻底 避免 过 拟 合 , 则 通过 经 验 误 闫 最 小 化 就 能 获 最 优 解 , A 
味 着 我 们 构造 性 地 证 明了 “P=NP”; 因此 , 只 要 相信 “P ANP” , CWA 
不 可 避免 . 

在 现实 任务 中 , 我 们 往往 有 多 种 学 习 算 法 可 供 选 择 , 甚 全 对 同一 个 学 习 算 
法 , 当 使 用 不 同 的 参数 配置 时 , 也 会 产生 不 同 的 模型 . 那么 , 我 们 该 选用 哪 一 个 
学 习 算法 、 使 用 哪 一 种 参数 配置 昵 ?这 束 是 机 器 学 习 中 的 “模型 选择 ”(model 
selection) 问题 . 理想 的 解决 方案 当然 是 对 候选 模型 的 泛 化 误差 进行 评估 , 然后 
选择 泛 化 误差 最 小 的 那个 模型 . 然而 如 上 面 所 讨论 的 , 我 们 无 法 直接 获得 泛 化 
RA, 而 训练 误差 又 由 于 过 拟 合 现 象 的 存在 而 不 适合 作为 标准 , 那么 , 在 现实 中 
如 何 进行 模型 评估 与 选择 呢 ? 


2.2 评估 方法 


wE, 我 们 可 通过 实验 测试 来 对 学 习 器 的 泛 化 误差 进行 评 信 并 进而 做 出 选 
择 . 为 此 , 需 使 用 一 个 “测试 集 ”(testing set) 来 测试 学 习 器 对 新 样本 的 判别 能 
A, 然后 以 测试 集 上 的 “测试 误差 ”(testing error) 作 为 泛 化 误差 的 近似 . 通常 
我 们 假设 测试 样本 也 是 从 样本 真实 分 布 中 独立 同 分 布 采 样 而 得 . 但 需 注 意 的 
xe, 测试 集 应 该 尽 可 能 与 训练 集 互 斥 , 即 测试 样本 尽量 不 在 训练 集中 出 现 、 未 
在 训练 过 程 中 使 用 过 . 

训 试 样本 为 什么 要 尽 可 能 不 出 现在 训练 集中 呢 ? 为 理解 这 一 点 , ANG E 
这 样 一 个 场景 : 老师 出 了 10 道 习 题 供 同 学 们 练习 , 考试 时 老师 又 用 同样 的 这 10 
道 题 作为 试题 , 这 个 考试 成 绩 能 否 有 效 反 映 出 同学 们 学 得 好 不 好 呢 ? 答案 是 否 


定 的 , 可 能 有 的 同学 只 会 做 这 10 道 题 却 能 得 高 分 . 回 到 我 们 的 问题 上 来 , 我 们 
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希望 得 到 泛 化 性 能 强 的 模型 , 好 比 是 希望 同学 们 对 课程 学 得 很 好 、 获 得 了 对 所 
学 知识 “举一反三 ”的 能 力 ; 训练 样本 相当 于 给 同学 们 练习 的 习题 , 测试 过 程 
则 相当 于 考试 . 显然, 若 测试 样本 被 用 作 训练 了 , 则 得 到 的 将 是 过 于 “乐观 ”的 


估计 结案 . 


可 是 , 我 们 只 有 一 个 包含 m 个 样 例 的 数据 集 D = {(21, y1), (2,42), .…， 
(Em, Um)}, 既 要 训练 , 又 要 测试 , 怎样 才能 做 到 呢 ? 答案 是 : 通过 对 D 进行 适当 
的 处 理 , 从 中 产生 出 训练 集 S 和 测试 集 T .下面 介 绍 几 种 常见 的 做 法 . 

2.2.1 留 出 法 | | 
“ 留 出 法 ”(hold-out) 直 接 将 数据 集 D 划分 为 两 个 互 斥 的 集合 , 其 中 一 个 


“集合 作为 训练 集 S, 另 一 个 作为 测试 集 T, BD = SuUT, SNT =Ø. Æ S EYI 


参见 习题 2.1. 


同时 可 得 估计 结果 的 标 
准 差 . 


练 出 模型 后 ,用工 来 评估 其 测试 误差 , 作为 对 泛 化 误差 的 估计 . 
以 二 分 类 任务 为 例 , 假定 DD 包含 1000 HA, 将 其 划分 为 S 包含 700 个 样 
A, TAE 300 个 样本 ,用 S 进行 训练 后 , 如 果 模 型 在 人 上 有 90 个 样本 分 类 错 
iB, 那么 其 错误 率 为 (90/300) x 100% = 30%, 相应 的 , 精度 为 1 — 30% = 70%. 
” 需 注意 的 是 , 训练 /测试 集 的 划分 要 尽 可 能 保持 数据 分 布 的 一 致 性 , 避免 
因数 据 划 分 过 程 引 入 额外 的 偏差 而 对 最 终结 果 产 生 影响 , 例如 在 分 类 任务 中 
至 少 要 保持 样本 的 类 别 比例 相似 .如果 从 采样 (sampling) 的 角度 来 看 待 数 据 
集 的 划分 过 程 , 则 保留 类 别 比例 的 采样 方式 通常 称 为 “分 层 采 样 ”(stratified 
sampling). 例如 通过 对 D 进行 分 层 采 样 而 获得 含 70% 样本 的 训练 集 9 AA 
30% 样本 的 测试 集 T, A DD 包含 500 个 正 例 、500 个 反例 , 则 分 层 采 样 得 到 的 
S 应 包含 350 个 正 例 、350 个 反例 , 而 工 则 包含 150 个 正 例 和 150 个 反例 ; 车 
9、 了 中 样本 类 别 比例 差别 很 大 , 则 误差 估计 将 由 于 训练 /测试 数据 分 布 的 差异 
而 产生 偏差 . | | | 
另 一 个 需 注意 的 问题 是 , 即便 在 给 定 训练 /测试 集 的 样本 比例 后 , 仍 存在 多 
种 划分 方式 对 初始 数据 集 D 进行 分 割 . 例如 在 上 面 的 例子 中 , 可 以 把 DD 中 的 样 
本 排序 , 然后 把 前 350 个 正 例 放 到 训练 集中 , 也 可 以 把 最 后 350 个 正 例 放 到 训 
练 集中 ,……… 这 些 不 同 的 划分 将 导致 不 同 的 训练 /测试 集 , 相应 的 , 模型 评估 的 
结果 也 会 有 差别 . 因此 , 单 次 使 用 留 出 法 得 到 的 估计 结果 往往 不 够 稳定 可 靠 , 在 
使 用 留 出 法 时 , 一 般 要 采用 者 干 次 随机 划分 、 重 复 进 行 实验 评估 后 取 平 均值 作 
为 留 出 法 的 评估 结果 . 例如 进行 100 次 随机 划分 , 每 次 产生 一 个 训练 /测试 集 用 
于 实验 评估 , 100 次 后 就 得 到 100 个 结果 , 而 留 出 法 返回 的 则 是 这 100 个 结果 的 


此 外 , 我 们 希望 评估 的 是 用 D 训练 出 的 模型 的 性 能 , 但 留 出 法 需 划 分 训 
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可 从 “偏差 -方差 ”( 参 
见 2.6 节 ) 的 角度 来 理解 : 
测试 集 小 时 , 评估 结果 的 
方差 较 大 ; 训练 集 小 时 , 评 
佑 结果 的 偏差 较 大 . 


一 般 而 言 , 测试 集 至 少 
应 会 30 个 样 例 [Mitchell, 
1997]. 


亦 称 “ 开 倍 交 叉 验证 ”， 


“10 次 10 折 交 又 验 
证 法 ”与 “100 次 留 出 
法 ”都 是 进行 了 100 次 训 
练 /测试 . 
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练 /测试 集 , 这 就 会 导致 一 个 窘境 : BOMBER 3 包含 绝 大 多 数 样本 , 则 训练 出 
的 模型 可 能 更 接近 于 用 D 训练 出 的 模型 , EAF T 比较 小 , 评估 结果 可 能 不 够 
稳定 准确 ; 耕 令 测 试 集 工 多 包含 一 些 样本 , 则 训练 集 5 与 D 差别 更 大 了 , 被 评 
估 的 模型 与 用 D 训练 出 的 模型 相 比 可 能 有 较 大 差别 , 从 而 降低 了 评估 结果 的 保 
真性 (fidelity). 这 个 问题 没有 完美 的 解决 方案 , 常见 做 法 是 将 大 约 2/3 ~ 4/5 的 
梓 本 用 于 训练 , 剩余 样本 用 于 测试 . 
2.2.2 交 义 验证 法 
“交叉 验证 法 ”(cross validatiom) 先 将 数据 集 D 划分 为 天 个 大 小 相似 的 
Be T4, BE D= D,UD2U...U Dz, Di ND; = @ (i 4 5). BRT D; MB 
尽 可 能 保持 数据 分 布 的 一 致 性 , 即 从 D 中 通过 分 层 采样 得 到 .然后 , 每 次 用 
k 一 工 个 子 集 的 并 集 作 为 训练 集 , 余下 的 那个 子 集 作 为 测试 集 ; 这 样 束 可 获得 
组 训练 /测试 集 , 从 而 可 进行 天 次 训练 和 测试 , 最 终 返 回 的 是 这 个 测试 结果 
的 均值 . 显然 , 交叉 验证 法 评 佑 绪 采 的 稳定 性 和 保 真 性 在 很 大 程度 上 取决 于 天 
的 取 值 , 为 强调 这 一 点 , 通 音 把 交叉 验证 法 称 为 “天 折 交叉 验证 ”(K-fold cross 
validation). k 最 常用 的 取 值 是 10, 此 时 称 为 10 折 交 又 验证 ; 其 他 种 用 的 天 值 
有 5、20 等 . 图 2.2 给 出 了 10 折 交 叉 验 证 的 示意 图 . 


us 
Di | Dz |D [Ds | Ds | De |D: | Ds | Do | Dio 


训练 集 测试 集 
Dı | Də | Ds | Da | Ds | De | Dz | Ds | Do 一 > 测试 结果 1 
Dı [Dz |D [Da [Ds [Ds [Dz |Ds [Do 一 > 测试 结果 2 | 平均 返回 


结果 








一 > 测试 结果 10 


2.2 10 折 交 又 验证 示意 图 





与 留 出 法 相似 , 将 数据 集 D 划分 为 个 子 集 同样 存在 多 种 划分 方式 . 为 
减 小 因 样 本 划分 不 同 而 引入 的 靶 别 ,有 折 交 叉 验 证 通 第 要 随机 使 用 不 同 的 划分 
重复 p 次 , 最 终 的 评估 结果 是 这 2 次 有 折 区 叉 验 证 结果 的 均值 , 例如 常见 的 有 
“10 次 10 折 交 又 验 证 ”. 
假定 数据 集 D 中 包含 m 个 样本 , AO k = m, 则 得 到 了 交叉 验证 法 的 一 
) 


个 特例 : 留 一 法 (Leave-One-Out, HE LOO). 显然 , 留 一 法 不 受 随机 样本 划分 
ww ai bobt.com 000000. 





2.2 评估 方法 


参见 习题 2.2. 


NFL 定理 参见 1.4 节 . 


关于 样本 复杂 度 与 泛 化 
性 能 之 间 的 关系 , 参见 第 
12 章 . 7 


Bootstrap & Æ “ARH 
带 ”; 这 里 是 在 使 用 德国 
18 世纪 文学 作品 《吹牛 
大 王 历险 记 》 中 解 靳 带 自 
助 的 典故 ,因此 本 书 译 为 
“自助 法 ”， 自 助 采样 亦 
称 “可 重复 采样 ”或 “有 
放 回 采样 ”. 
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方式 的 影响 , 因为 m 个 样本 只 有 唯一 的 方式 划分 为 mm 个子 集 一 每 个 子 集 包 含 


.一 个 样本 ; 留 一 法 使 用 的 训练 集 与 初始 数据 集 相 比 只 少 了 一 个 样本 , 这 就 使 得 


在 绝 大 多 数 情况 下 , 留 一 法 中 被 实际 评估 的 模型 与 期 望 评估 的 用 D 训练 出 的 模 
型 很 相似 . 因此 , 留 一 法 的 评估 结果 往往 被 认为 比较 准确 . 然而 , 留 一 法 也 有 其 
缺陷 : 在 数据 集 比较 大 时 , 训练 m 个 模型 的 计算 开销 可 能 是 难以 忍受 的 (例如 数 
据 集 包 含 1 百 万 个 样本 , 则 需 训 练 1 百 万 个 模型 ), 而 这 还 是 在 未 考虑 算法 调 参 
的 情况 下 . 另外 , 留 一 法 的 估计 结果 也 未 必 永 远 比 其 他 评估 方法 准确 ; “没有 免 
费 的 午餐 ”定理 对 实验 评估 方法 同样 适用 ， 


2.2.3 自助 法 


我 们 希望 评估 的 是 用 D 训练 出 的 模型 . 但 在 留 出 法 和 交叉 验证 法 中 , 由 于 
保留 了 一 部 分 样本 用 于 测试 , 因此 实际 评估 的 模型 所 使 用 的 训练 集 比 D 小 , 这 
必然 会 引入 一 些 因 训 练 样本 规模 不 同 而 导致 的 估计 偏差 . 留 一 法 受训 练 样本 规 
模 变 化 的 影响 较 小 , 但 计算 复杂 度 又 太 高 了 . 有 没有 什么 办 法 可 以 减少 训练 样 


本 规模 不 同 造 成 的 影响 , 同时 还 能 比较 高 效 地 进行 实验 佑 计 呢 ? 


“自助 法 ”(bootstrapping) 是 一 个 比较 好 的 解决 方案 , 它 直接 以 自助 采样 | 
法 (bootstrap sampling) 为 基础 [Efron and Tibshirani, 1993]. 给 定 包含 m 个 样 
本 的 数据 集 D, 我 们 对 它 进行 采样 产生 数据 集 D': 每 次 随机 从 D 中 挑选 一 个 
样本 , 将 其 拷贝 放 入 D', 然后 再 将 该 样本 放 回 初始 数据 集 D 中 , 使 得 该 样本 在 
下 次 采样 时 仍 有 可 能 被 采 到 ; 这 个 过 程 重复 执行 m 次 后 , 我 们 就 得 到 了 包含 m 
个 样本 的 数据 集 D', 这 就 是 自助 采样 的 结果 . 显然 , D 中 有 一 部 分 样本 会 在 D 
中 多 次 出 现 , 而 另 一 部 分 样本 不 出 现 . 可 以 做 一 个 简单 的 估计 , 样本 在 m 次 采 


“ 样 中 始终 不 被 采 到 的 概率 是 (1 一 土 )”, 取 极限 得 到 


l 1\" 1 
lim |1 一 一 上】 > -= #8 0.368 , (2.1) 
: m e 


即 通过 自助 采样 , 初始 数据 集 D 中 约 有 36.8% 的 样本 未 出 现在 采样 数据 集 D 
中 . 于 是 我 们 可 将 D! 用 作 训练 集 , D\ D 用 作 测试 集 ; BORE, 实际 评估 的 模型 与 


”期 望 评估 的 模型 都 使 用 m 个 训练 样本 , 而 我 们 仍 有 数据 总 量 约 1/3 的 、 没 在 训 


练 集中 出 现 的 样本 用 于 测试 . 这 样 的 测试 结果 , 亦 称 “ 包 外 估计 ”(out-of-bag 
estimate). 

自助 法 在 数据 集 较 小 、 难 以 有 效 划分 训练 /测试 集 时 很 有 用 ; 此 外 , 自助 法 
能 从 初始 数据 集中 产生 多 个 不 同 的 训练 集 , 这 对 集成 学 习 等 方法 有 很 大 的 好 处 . 


O AATE, 自助 法 产生 的 数据 集 改 变 了 初 贻 数据 集 的 分 布 , 这 会 引入 估计 偏差 因 
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此 , 在 初始 数据 量 足够 时 , 留 出 法 和 交叉 验证 法 更 常用 一 些 ， 


2.2.4 调 参与 最 冬 模型 


大 多 数学 习 算法 都 有 些 参数 (parameter) 需 要 设 定 ， 参数 配置 不 同 , 学 得 模 


型 的 性 能 往往 有 显著 差别 . 因此 , 在 进行 模型 评估 与 选择 时 , 除了 要 对 适用 学 习 


例如 大 型 “深度 学 习 ” 
模型 甚至 有 上 百 亿 个 参数 . 


算法 进行 选择 ， 还 需 对 算法 参数 进行 设 定 ， 这 就 是 通常 所 说 的 “参数 调节 ”或 
简 简称 “ 调 参 ”(parameter tuning). 


读者 可 能 马上 想到 , 调 参 和 算法 选择 没什么 本 质 区 别 : 对 每 种 参数 配置 都 
训练 出 模型 , 然后 把 对 应 最 好 模型 的 参数 作为 结果 . 这 样 的 考虑 基本 是 正确 的 ， 
但 有 一 点 需 注 意 : 学 习 算 法 的 很 多 参数 是 在 实数 范围 内 取 值 , 因此 , 对 每 种 参数 
配置 都 训练 出 模型 来 是 不 可 行 的 . 现实 中 常用 的 做 法 , 是 对 每 个 参数 选 定 一 个 


范围 和 变化 步 长 , 例如 在 [0,0.2] 范围 内 以 0.05 为 步 长 , 则 实际 要 评估 的 候选 参 


数值 有 5 个 , 最 终 是 从 这 5 个 候选 值 中 产生 选 定 值 . 显然 , 这 样 选 定 的 参数 值 往 


” 往 不 是 “最 佳 ” 值 , 但 这 是 在 计算 开销 和 性 能 估计 之 间 进 行 折 中 的 结果 , 通过 


这 个 折 中 , 学 习 过 程 才 变 得 可 行 . 事实 上 , 即便 在 进行 这 样 的 折 中 后 , 调 参 往往 


仍 很 困难 . 可 以 简单 估算 一 下 : 假定 算法 有 3 个 参数 , 每 个 参数 仅 考虑 5 个 候选 
È, 这 样 对 每 一 组 训练 /测试 集 就 有 53 = 125 个 模型 需 考察 ; 很 多 强大 的 学 习 算 
法 有 大 量 参数 需 设 定 , 这 将 导致 极 大 的 调 参 工程 量 , 以 至 于 在 不 少 应 用 任务 中 ， 


参数 调 得 好 不 好 往往 对 最 终 模型 性 能 有 关键 性 影响 . | 
”给 定 包含 m 个 样本 的 数据 集 D , 在 模型 评估 与 选择 过 程 中 由 于 需要 留 出 


一 部 分 数据 进行 评估 测试 , 事实 上 我 们 只 使 用 了 一 部 分 数据 训练 模型 . 因此 , 在 


模型 选择 完成 后 , 学 习 算 法 和 参数 配置 已 选 定 , 此 时 应 该 用 数据 集 D 重新 训练 
模型 . 这 个 模型 在 训练 过 程 中 使 用 了 所 有 m "个 样本 ， 这 才 是 我 们 最 终 提 交 给 用 
户 的 模型 ， | 

另外 , 需 注 意 的 是 , 我 们 通常 把 学 得 模型 在 实际 使 用 中 遇 到 的 数据 称 为 测 
试 数据 , 为 了 加 以 区 分 , 模型 评估 与 选择 中 用 于 评估 测试 的 数据 集 常 称 为 “ 验 
证 集 ” (validation set). 例如 ， 在 研究 对 比 不 同 算法 的 泛 化 性 能 时 , 我 们 用 测试 
集 上 的 判别 效果 来 估计 模型 在 实际 使 用 时 的 泛 化 能 力 , 而 把 训练 数据 另外 划分 
为 训练 集 和 验证 集 , 基于 验证 集 上 的 性 能 来 进行 模型 选择 和 调 参 . 


2.3 性 能 度 fe | | | | 
对 学 习 器 的 泛 化 性 能 进行 评估 , 不 仅 需 要 有 效 可 行 的 实验 估计 方法 , 还 需 


.Com [H O00 





要 有 衡量 模型 泛 化 和 ee ABLE TER 6 BE Œ (performance measure). 


聚 类 的 性 能 度量 参见 第 
9 章 . 
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性 能 度量 反映 了 任务 需求 , 在 对 比 不 同 模型 的 能 力 时 , 使 用 不 同 的 性 能 度量 往 
往 会 导致 不 同 的 评判 结果 ; 这 意味 着 模型 的 “好 坏 ” 是 相对 的 , 什么 样 的 模型 
是 好 的 , 不 仅 取决 于 算法 和 数据 , 还 决定 于 任务 需求 


在 预测 任务 中 , 给 定 样 例 集 D = {(£1, y1), (2, 2) ---, (Lm, Ym) }, HP yi 
是 示例 zi; 的 真实 标记 . 要 评估 学 习 器 f TERE, 就 要 把 学 习 器 预测 结果 f(x) 


与 真实 标记 y 进行 比较 . 
回归 任务 最 常用 的 性 能 度量 是 


L “WIR” (mean squared error) 


m 


E(f; D) = LE Ge). (2.2) 
4=1 
更 一 般 的 ， FARAN 和 要 密度 函数 pC), 均 方 误差 可 描述 为 
E(f; D) = he (f (@) — y)? p(w)ae (2.3) 


本 节 下 面 主要 介 绍 分 类 任务 中 常用 的 性 能 度量 
2.3.1 HIRE SHE 


本 章 开 头 提 到 了 错误 率 和 精度 , 这 是 分 类 任务 中 最 常用 的 两 种 性 能 度量 ， 
既 适 用 于 二 分 类 任务 , 也 适用 于 多 分 类 任务 . 错误 率 是 分 类 错误 的 样本 数 占 样 
本 总 数 的 比例 , 精度 则 是 分 类 正确 的 样本 数 占 样本 总 数 的 比例 . 对 样 例 集 DD, 分 
类 错误 率 定义 为 


E(f; D) = > PIF (wi) # y) . (2.4) 
“23 i=l 
精度 则 定义 为 
ace(f;D) = — 2 (ai) = yi) (2.5) 
= 1- a D) : 


更 一 般 的 , 对 于 数据 分 布 和 概率 密度 函数 p(.), 错误 率 与 精度 可 分 别 描 


B(f;D) = / EA (2.6) 
PHPND o 
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ace(f; D) J TG (@) =) ple) (2.7) 


=B D) 


2.3.2 BES. SERS 
错误 率 和 精度 虽 常 用 , 但 并 不 能 满足 所 有 任务 需求 . 以 西瓜 问题 为 例 , 假定 
瓜农 拉 来 一 车 西瓜 , 我 们 用 训练 好 的 模型 对 这 些 西 瓜 进行 判别 , 显然 , 错误 率 衡 
量 了 有 多 少 比例 的 瓜 被 判别 错误 . 但 是 者 我 们 关心 的 是 “ 挑 出 的 西瓜 中 有 多 少 
比例 是 好 瓜 ”, 或 者 “所 有 好 瓜 中 有 多 少 比例 被 挑 了 出 来 ”, 那么 错误 率 显然 
就 不 够 用 了 , 这 时 需要 使 用 其 他 的 性 能 度量 . 
类 似 的 需求 在 信息 检索 、Web 搜 索 等 应 用 中 经 第 出 现 , 例如 在 信息 检索 
中 , 我 们 经 常会 关心 “检索 出 的 信息 中 有 多 少 比 例 是 用 户 感 兴趣 的 ”“ 用 
| | | 户 感 兴趣 的 信息 中 有 多 少 被 检索 出 来 了 ”. “AYER” (precision) 5 “A 
| 率 ”(recall) 是 更 为 适用 于 此 类 需求 的 性 能 度量 . 
”对 于 二 分 类 问题 , 可 将 样 例 根据 其 真实 类 别 与 学 习 器 预测 类 别 的 组 合 划 
分 为 真正 例 (true positive)、 假 正 例 (false positive)、 真 反例 (true negative). 
假 反例 (false negative) 四 种 情形 , 令 TP. FP. TN. FN 分 别 表示 其 对 应 的 
样 例 数 , WERA TP 十 FP 十 TN 二 FN = 样 例 总 数 . DRA OB 
ae” ones matrix) M4 2.1 Pras. | 


表 2.1 BRE A SE i Ae 






| ”预测 结果 
TP (真正 例 ) 


FP (BE) 

















FN ( 假 反 例 ) 
TN ( 真 反例 ) 





EYER PP 与 查 全 率 尺 分 别 定义 为 


TF 


~ TP+FP’ (2.8) 
TP | | 
R= TPLEN ` (2.9) 


查 准 率 和 查 全 率 是 一 对 矛盾 的 度量 . 一 般 来 说 , 碍 准 率 高 时 , BEER EE 
偏 低 ; 而 查 全 率 高 时 , 查 准 率 往往 偏 低 . 例如 , 若 希 望 将 好 瓜 尽 可 能 多 地 选 出 来 ， 


则 可 通过 增加 选 瓜 的 数量 来 实现 ， 如 果 将 所 有 西瓜 都 选 上 ， 那么 所 有 的 好 瓜 也 
ww ai bbt. com [] 0 Oo 





Beye eine: 

条 向 用 户 反馈 其 可 能 感 
nee 即 可 计算 出 
BEE, BRE, 


Ts AR “PR 曲线 ”或 
“PR 图 ” ; 


为 绘图 方便 和 美观 ， 示 
意图 显示 出 单调 平滑 曲线 ; 
但 现实 任务 中 的 P-R 曲线 
党 是 非 单调 、 不 平滑 的 ， 
在 很 多 局 部 有 上 下 波动 . 
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必然 部 被 选 上 了 , 但 这 样 查 准 率 束 会 较 低 ; 符 硕 望 选 出 的 瓜 中 好 瓜 比 例 尽 可 能 
ey, 则 可 只 挑选 最 有 把 握 的 瓜 , 但 这 样 现 难免 会 漏 挥 不 少 好 瓜 , EE SEB R 
低 . 通常 只 有 在 一 些 简单 任务 中 , 才 可 能 使 查 全 率 和 查 准 率 都 很 高 ， 


在 很 多 情形 下 ， ee 排 在 前 面 
的 是 学 习 器 认为 “最 可 能 ”是 正 例 的 样本 , 排 在 最 后 的 则 是 学 习 器 认为 “最 
不 可 能 ” es 按 此 顺序 逐个 把 样本 作为 正 例 进行 预测 , 则 每 次 可 以 
计算 出 当前 的 查 全 率 、 查 准 率 . 以 查 准 率 为 纵 输 、 玛 全 率 为 横 轴 作 图 , 就 得 到 
了 和 三 准 率 - 得 全 率 曲 线 , 简称 “P-R 曲 线 ”, 显示 该 曲线 的 图 称 为 “P-R 图 ”. 
2.3 给 出 了 一 个 示意 图 . 





02 0.4 06 0.8 1.0 
bag 


图 2.3 了 P-R 曲 线 与 平衡 点 示意 图 


P-R 图 直观 地 显示 出 学 习 器 在 样本 总 体 上 的 查 全 率 、 查 准 率 .在 进行 比较 
时 , 土 一 个 学 习 器 的 P-R 曲线 被 另 一 个 学 习 器 的 曲线 完全 “ 包 住 ”, 则 可 断言 
后 者 的 性 能 优 于 前 者 , 例如 图 2.3 中 学 习 器 A 的 性 能 优 于 学 习 器 C ; 如 果 两 个 
学 习 器 的 P-R 曲线 发 生 了 交叉 , 例如 图 2.3 中 的 A5 B, 则 难以 一 般 性 地 断言 
两 者 熟 优 熟 劣 , 只 能 在 具体 的 查 准 率 或 查 全 率 条 件 下 进行 比较 . 然而 , 在 很 多 情 
形 下 , 人 们 往往 仍 希望 把 学 习 器 A 与 B 比 出 个 高 低 . 这 时 一 个 比较 合理 的 判 据 
是 比较 P-R 曲线 下 面积 的 大 小 , 它 在 一 定 程度 上 表征 了 学 习 占 在 查 准 率 和 查 全 
率 上 取得 相对 “ 双 高 ”的 比例 . 但 这 个 值 不 太 容易 估算 , 因此 , 人 们 设计 了 一 些 
综合 考虑 得 准 率 、 碍 全 率 的 性 能 度量 . 


“平衡 点 ” (Break-Event Point, (ay PR BEP) 就 是 这 样 一 个 度量 ， i « ay 
准 率 = 查 全 率 ” oan 例如 图 2.3 中 学 习 器 C 的 BEP 是 0.64, 而 基于 BEP 


的 比较 , T AA A pet Ronan 
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Fi 是 基于 查 准 率 与 查 
全 率 的 调和 平均 (harmonic 
mean) 定 义 的 : 


1 1 Kgy 
Fl 2 \P R) 


Fs 则 是 加 权 调和 平均 : 


erer 
Fe 1+8? \P RJ/ 


与 算术 平均 ( PE ) 和 几 


何平 均 ( VP x 忆 ) 相 比 , 调 
和 平均 更 重视 较 小 值 . 
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但 BEP 还 是 过 于 简化 了 些 , 更 常用 的 是 F1 度量 : 


2xPXR 2x TP 


Fl = ———— = -onra . 
P+R 样 例 总 数 十 TP TN 


(2.10) 


在 一 些 应 用 中 , 对 查 准 率 和 查 全 率 的 重视 程度 有 所 不 同 . 例如 在 商品 推荐 
系统 中 , 为 了 尽 可 能 少 打扰 用 户 , 更 希望 推荐 内 容 确 是 用 户 感 兴趣 的 , 此 时 查 准 


ZERE, 而 在 逃犯 信息 检索 系统 中 , 更 希望 尽 可 能 少 漏 掉 逃 犯 , 此 时 查 全 率 更 


重要 . F1 度量 的 一 般 形 式 一 
tf, 它 定义 为 


- Fp, 能 让 我 们 表达 出 对 查 准 率 / 查 全 率 的 不 同 全 


(1+67)xPxR 
(B°xP)+R ° 

其 中 6 > 0 度量 了 查 全 率 对 查 准 率 的 相对 重要 性 [Van Rijsbergen, 1979]. 6 = 1 

时 退化 为 标准 的 F1; 6 > 1 时 查 全 率 有 更 大 影响 ; 6 < 1 时 查 准 率 有 更 大 影响 . 


很 多 时 候 我 们 有 多 个 二 分 类 混 清和 矩阵 , 例如 进行 多 次 训练 /测试 , 每 次 得 到 
一 个 混 消 和 矩阵 ; 或 是 在 多 个 数据 集 上 进行 训练 /测试 , 希望 估计 算法 的 “全 局 ” 
HERE; 甚或 是 执行 多 分 类 任务 , 每 两 两 类 别 的 组 合 都 对 应 一 个 混淆 矩阵 ; …… 
总 之 , 我 们 希望 在 n SIAR LAGS REERAMAL. 


一 种 直接 的 做 法 是 先 在 各 混 清 矩阵 上 分 别 计算 出 查 准 率 和 查 全 率 ， 
WA (Pi, Ri), (Pz, R2),…, (Pa Rn), 再 计算 平均 值 , 这 样 就 得 到 “ 宏 查 准 
率 ”(macro-P)、 “RBA” (macro-R), LARA “ZF 1” (macro-F'1): 


Fg = (2.11) 


aor = :> , (2.12) 
a 
macro-R = > Ri, (2.13) 
m 
2 x -P - 
ee E x macro-P x macro-R ` (2.14) 


macro-P + macro-R 


还 可 先 将 各 混淆 矩阵 的 对 应 元 素 进行 平均 , BTP, FP, TN, FN 的 
平均 值 , 分 别 记 为 了 P、FP、7TN、FN, 再 基于 这 些 平均 值 计 算出 “ 微 查 准 
R” (micro-P), “Was” en “TE 1” (micro-F 1): 


TP 
micro-P = 


a (2.15) 
ww ai bbt. com oonoodA + FP 
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| TP 
micro-R ar (2.16) 
TP+ FN . 
2 icro-P icro- 
micro-F1 = 2 microP x micro-h (2.17) 


micro-P + micro-R 
2.3.3 ROC 5 AUC 


很 多 学 习 器 是 为 测试 样本 产生 一 个 实 值 或 概率 预测 , 然后 将 这 个 预测 值 与 
AIR N E (threshold) HiT ER, BAT MAM AER, 否则 为 反 类 . Bil 
如 , 神经 网 络 在 一 般 情 形 下 是 对 每 个 测试 样本 预测 出 一 个 [0.0,1.0] 之 间 的 实 值 ， 
然后 将 这 个 值 与 0.5 进行 比较 , 大 于 0.5 则 判 为 正 例 , 否则 为 反例 . 这 个 实 值 或 
概率 预测 结果 的 好 坏 , 直接 决定 了 学 习 器 的 泛 化 能 力 . 实际 上 , 根据 这 个 实 值 或 
概率 预测 结果 , 我 们 可 将 测试 样本 进行 排序 , “最 可 能 ”是 正 例 的 排 在 最 前 面 ， 

“最 不 可 能 ”是 正 例 的 排 在 最 后 面 . 这 样 , 分 类 过 程 就 相当 于 在 这 个 排序 中 以 


RT RDR” (cut point) 将 样本 分 为 两 部 分 , 前 一 部 分 判 作 正 例 , 后 一 部 分 则 


判 作 反 例 . 


在 不 同 的 应 用 任务 中 , 我 们 可 根据 任务 需求 来 采用 不 同 的 截断 点 , 例如 若 
我 们 更 重视 “ 查 准 率 ”, 则 可 选择 排序 中 靠 前 的 位 置 进行 截断 ; 若 更 重视 “ 查 
TR” 则 可 选择 靠 后 的 位 置 进行 截断 . 因此 , 排序 本 身 的 质量 好 坏 , 体现 了 综 
合 考虑 学 习 器 在 不 同 任务 下 的 “期 望 泛 化 性 能 ”的 好 坏 , 或 者 说 , “一 般 情况 
下 ” 泛 化 性 能 的 好 坏 . ROC 曲线 则 是 从 这 个 角度 出 发 来 研究 学 习 器 泛 化 性 能 
NA LA. 

ROC 全 称 是 “ 受 试 者 工作 特征 ”(Receiver Operating Characteristic) ti 
线 , 它 源 于 “二 战 ” 中 用 于 敌 机 检测 的 雷达 信号 分 析 技 术 , 二 十 世纪 六 七 十 
年 代 开 始 被 用 于 一 些 心理 学 、 医 学 检测 应 用 中 , 此 后 被 引入 机 器 学 习 领 域 
[Spackman, 1989]. 与 2.3.2 节 中 介绍 的 P-R 曲线 相似 , 我 们 根据 学 习 器 的 预 
测 结果 对 样 例 进行 排序 , 按 此 顺序 逐个 把 样本 作为 正 例 进行 预测 , 每 次 计算 
出 两 个 重要 量 的 值 , 分 别 以 它们 为 横 、 纵 坐标 作 图 , 就 得 到 了 “ROC 曲线 ”. 
与 P-R 曲线 使 用 查 准 率 、 查 全 率 为 纵 、 横 轴 不 同 , ROC 曲线 的 纵 轴 是 “真正 
例 率 ”(True Positive Rate, 简称 TPR), 横 轴 是 “ 假 正 例 率 ”(False Positive 
Rate, 简称 FPR), 基于 表 2.1 中 的 符号 , 两 者 分 别 定义 为 

TP 


TPR = TP 4 FN ’ 


(2.18) 


Re 219) 
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”基于 有 限 个 测试 样 例 绘 
制 P-R 图 时 有 同样 问题 . 
本 书 到 这 里 才 介 绍 近 似 曲 
线 的 绘制 , 是 为 了 便于 下 
绍 AUC 的 计算 . 


面 介 
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显示 ROC 曲线 的 图 称 为 “ROC 图 ”. 图 2.4(a) 给 出 了 一 个 示意 图 , 显然， 


”对 角 线 对 应 于 “随机 猜测 ”模型 , 而 点 (0, 1) 则 对 应 于 将 所 有 正 例 排 在 所 有 反 


例 之 前 的 “理想 模型 ”. 


ROC 曲 线 





“902 04 06 08 10 02 04 06 08 10 


ot 
假 正 例 率 假 正 例 率 
(a) ROC 曲线 与 AUC (b) 基于 有 限 样 例 绘制 的 ROC 曲线 
与 AUC 


2.4 ROC HAS AUC 示意 图 


现实 任务 中 通常 是 利用 有 限 个 测试 样 例 来 绘制 ROC 图 , 此 时 仅 能 获得 有 

限 个 (真正 例 率 , 假 正 例 率 ) 坐 标 对 , 无 法 产生 图 2.4(a) 中 的 光滑 ROC 曲线 , 只 能 
绘制 出 如 图 2.4(b) 所 示 的 近似 ROC 曲线 . 绘图 过 程 很 简单 : 给 定 m+ 个 正 例 和 
- 个 反例 , 根据 学 习 器 预测 结果 对 样 例 进 行 排序 , 然后 把 分 类 阔 值 设 为 最 大 ， 


E irate 此 时 真正 例 率 和 假 正 例 率 均 为 0, 在 坐标 (0, 0) 处 


标记 一 个 点 . 然后 , 将 分 类 阔 值 依次 设 为 每 个 样 例 的 预测 值 , 即 依次 将 每 个 样 例 
划分 为 正 例 . eee 点 坐标 为 (zx,y), 当前 若 为 真正 例 , 则 对 应 标记 点 的 
坐标 为 (z,y + 4); 当前 若 为 假 正 例 ， 人 (x + —.,y), 然 
后 用 线段 连接 相信 上 即 得 . 
进行 学 习 器 的 比较 时 , 与 P-R 图 相似 ， 右 一 个 学 习 器 的 ROC 曲线 被 另 一 

个 学 习 器 的 曲线 完全 “和 包 住 ”, 则 可 断言 后 者 的 性 能 优 于 前 者 ; EAA Y A 
曲线 发 生 交 叉 , 则 难以 一 般 性 地 断言 两 者 款 优 熟 劣 . 此 时 如 果 一 定 要 进 

行 比较 , 则 较为 合理 的 判 据 是 比较 ROC 曲线 下 的 面积 , 即 AUC (Area Under 
ROC Curve), 如 图 2.4 所 示 . | 


从 定义 可 知 AUC 可 通过 对 ROC 曲线 下 各 部 分 的 面积 求 和 而 得 假 


E ROC 曲线 是 由 坐标 为 {(x1, 1), (v2, 42),---, (Em, Ym)} uae ne ee 
成 (zi = 0, tm = 1), 参见 图 2.4(b)， 则 AUC TEA 
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一 般 情况 下 , 重要 的 是 
代价 比值 而 非 绝 对 值 ,， 例 
如 costo, : costio 二 5:1 


| 与 50: 10 所 起 效果 相当 . 
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1 m—1 | 
AUC = 5 N (wera — 24) + (Yi + Yi+1) - (2.20) 
i=] 


形式 化 地 看 , AUC 考虑 的 是 样本 预测 的 排序 质量 , 因此 它 与 排序 误差 有 上 紧 
密 联系 . 给 定 mt 个 正 例 和 m- 个 反例 , 令 D+ 和 D- 分 别 表 示 正 、 反 例 集合 
则 排序 “损失 ”(loss) 定 义 为 


trata De (1(Fle*) < se) + FEH = He) , 

| (2.21) 
即 考虑 每 一 对 正 、 反 例 , 车 正 例 的 预测 值 小 于 反例 , 则 记 一 个 “ 罚 分 ”, AA 
等 , 则 记 0.5 “TIS”. 容易 看 出 , Conk 对 应 的 是 ROC 曲线 之 上 的 面积: # 
一 个 正 例 在 ROC 曲线 上 对 应 标记 点 的 坐标 为 (z,y), W zx 恰 是 排序 在 其 之 前 的 
反例 所 占 的 比例 , 即 假 正 例 率 . 因此 有 


AUC = 1 — brank - 22) 


2.3.4 代价 敏感 错误 率 与 代价 曲线 


在 现实 任务 中 常会 遇 到 这 样 的 情况 : 不 同类 型 的 错误 所 造成 的 后 采 不 同 . 
例如 在 医疗 诊断 中 , 错误 地 把 患者 诊断 为 健康 人 与 错误 地 把 健康 人 诊断 为 患者 ， 
看 起 来 都 是 犯 了 “一 次 错误 ”, 但 后 者 的 影响 是 增加 了 进一步 检查 的 麻烦 , 前 
者 的 后 果 却 可 能 是 丧失 了 拯救 生命 的 最 佳 时 机 ; 再 如 , 门禁 系统 错误 地 把 可 通 
行人 员 拦 在 门 外 , 将 使 得 用 户 体验 不 佳 , 但 错误 地 把 陌生 人 放 进 门 内 , 则 会 造成 
严重 的 安全 事故 . 为 权衡 不 同类 型 错误 所 造成 的 不 同 损 大 TARRAT “SE 
均等 代价 ”(unequal cost). 

二 分 类 任务 为 例 ,我 们 可 根据 任务 的 领域 知识 设 定 一 个 “代价 珑 
阵 ” = matrix), 如 表 2.2 Pras, 其 中 costi; 表示 将 第 i 类 样本 预测 为 第 7 类 
样本 的 代价 : 一 般 来 说 , costu = 0; 若 将 第 0 类 判别 为 第 1 类 所 造成 的 损失 更 
K, 则 costo: > costio; 损失 程度 相差 越 大 , costol 与 costio 值 的 差别 越 大 . 


表 2.2 ZONE 


FE sz 
Ha 
costio 
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参见 习题 2.7. 


“规范 化 ” (normaliza- 


tion) 是 将 不 同 变 化 范围 的 


值 映 射 到 相同 的 固定 范围 
中 , 常见 的 是 [0, 1], 此 时 亦 


2.8. 


称 “ 归 一 化 ” . 参见 习题 
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回顾 前 面 介 绍 的 一 些 性 能 度量 可 看 出 , 它们 大 都 隐 式 地 假设 了 均等 代价 ， 
例如 式 (2.4) 所 定义 的 错误 率 是 直接 计算 “错误 次 数 ”, 并 没有 考虑 不 同 错误 会 


造成 不 同 的 后 果 . 在 非 均等 代价 下 , 我 们 所 希望 的 不 再 是 简单 地 最 小 化 错误 次 


数 , 而 是 希望 最 小 化 “总 体 代价 ”(total cost). 若 将 表 2.2 中 的 第 0 类 作为 正 
类 、 第 1 类 作为 反 类 , $ Dt 与 D7 分 别 代表 样 例 集 DD 的 正 例子 集 和 反例 子 
Se, 则 “代价 敏感 ”(cost-sensitive) 错 误 率 为 


E(f; D; cost) ik ` I(f 5. 天 5 x costo} 


TiEDT+ 


+ >》 1 f (xi) F Yi) xX k 3 (2.23) 


TiED- 
类 似 的 , 可 给 出 基于 分 布 定义 的 代价 敏感 错误 率 , 以 及 其 他 一 些 性 能 度量 
如 精度 的 代价 敏感 版 本 . ES costi 中 的 i、j 取 值 不 限于 0、1, 则 可 定义 出 多 
分 类 任务 的 代价 敏感 性 能 度量. 
在 非 均 等 代价 下 , ROC 曲线 不 能 直接 反映 出 学 习 器 的 期 望 总 体 代 价 , 而 


“代价 曲线 ”(cost curve) 则 可 达到 该 目的 . 代价 曲线 图 的 横 轴 是 取 值 为 [0, 1] 
的 正 例 概 率 代价 oe 


p x costol 


P(+)cost = Fees pe (2.24) 
KP p 是 样 例 为 正 全 的 概率 ; 纵 轴 是 取 值 为 [0, 1] 的 归 一 化 代价 
_ FNR x p x costo, + FPR x (1 — p) x costio (2.25) 


cost = 
EAG p X costo, + (1 — p) x costio 


其 中 FPR 是 式 (2.19) 定 义 的 假 正 例 率 , FNR = 1 一 TPR 是 假 反 例 率 . 代价 曲线 
的 绘制 很 简单 : ROC 曲线 上 每 一 点 对 应 了 代价 平面 上 的 一 条 线段 , 设 ROC th 
线 上 点 的 坐标 为 (TPR, FPR), 则 可 相应 计算 出 FNR, 然后 在 代价 平面 上 绘制 
一 条 从 (0, FPR) 到 (1, FNR) 的 线段 , 线段 下 的 面积 即 表示 了 该 条 件 下 的 期 户 
总 体 代价 ; 如 此 将 ROC 曲线 上 的 每 个 点 转化 为 代价 平面 上 的 一 条 线段 , 然后 
取 所 有 线段 的 下 界 , 围 成 的 面积 即 为 在 所 有 条 件 下 学 习 器 的 期 望 总 体 代价 , 如 
图 2.5 所 示 . 


ww aibbt.com TOOOO0— 
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更 多 关于 假设 检验 的 介 
绍 可 参见 [Wellek, 2010]. 
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1.0 





归 一 化 代价 


| 代价 曲线 


FPRI 2 





1.0 


j -一 一 一 一 
正 例 概率 代价 


2.5 代价 曲线 与 期 望 总 体 代价 


2.4 比较 检验 


有 了 实验 评估 方法 和 性 能 度量 , 看 起 来 就 能 对 学 习 器 的 性 能 进行 评估 比较 
T: 先 使 用 某 种 实验 评估 方法 测 得 学 习 器 的 某 个 性 能 度量 结果 , 然后 对 这 些 结 
果 进 行 比较 . 但 怎么 来 做 这 个 “比较 ” 呢 ? 是 直接 取得 性 能 度量 的 值 然后 “ 比 
大 小 ” 吗 ? 实际 上 , 机 器 学 习 中 性 能 比较 这 件 事 要 比 大 家 想象 的 复杂 得 多 . 这 
里 面 涉 及 几 个 重要 因素 : 首先 , 我 们 希望 比较 的 是 泛 化 性 能 , 然而 通过 实验 评估 
方法 我 们 获得 的 是 测试 集 上 的 性 能 , 两 者 的 对 比 结果 可 能 未 必 相 同 ; 第 二 , 测试 
集 上 的 性 能 与 测试 集 本 喘 的 选择 有 很 大 关系 , 且 不 论 使 用 不 同 大 小 的 测试 集会 
得 到 不 同 的 结果 , 即便 用 相同 大 小 的 测试 集 , 若 包 含 的 测试 样 例 不 同 , 测试 结果 
也 会 有 不 同 ; B=, 很 多 机 器 学 习 算 法 本 身 有 一 定 的 随机 性 , 即便 用 相同 的 参数 
设置 在 同一 个 测试 集 上 多 次 运行 , 其 结果 也 会 有 不 同 . 那么 , 有 没有 适当 的 方法 
对 学 习 器 的 性 能 进行 比较 呢 ? 

统计 假设 检验 (hypothesis test) 为 我 们 进行 学 习 器 性 能 比较 提供 了 重要 依 
据 . 基于 假设 检验 结 采 我 们 可 推断 出 , AERAR EMRA A 比 B 好 ， 
WU A 的 泛 化 性 能 是 否 在 统计 意义 上 优 于 B, 以 及 这 个 结论 的 把 握 有 多 大 . 下 面 
我 们 先 介绍 两 种 最 基本 的 假设 检验 , 然后 介绍 几 种 常用 的 机 器 学 习性 能 比较 方 


“法 . 为 便于 讨论 , 本 节 默认 以 错误 率 为 性 能 度量 , 用 表示， 


2.4.1 假设 检验 


假设 检验 中 的 “假设 ”是 对 学 习 器 泛 化 错误 率 分 布 的 某 种 判断 或 猜想 , 例 

如 “e = eo”. 现实 任务 中 我 们 并 不 知道 学 习 器 的 泛 化 错误 率 , 只 能 获知 其 测试 错 

RZ 6. 泛 化 错误 率 与 测试 错误 率 未 必 相 同 , 但 直观 上 , 二 者 接近 的 可 能 性 应 比 
ww ai bbt eae a ae 


. COM 
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a 的 常用 取 值 有 
0.05、0.1 图 2.6 中 a 较 
大 是 为 了 绘图 方便 . 


s.t. Æ “subject to” 的 
简写 ， 使 左边 式 子 在 右边 
条 件 满足 时 成 立 . 
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BK, 相差 很 远 的 可 能 性 比较 小 . 因此 , 可 根据 测试 错误 率 估 推出 泛 化 错误 率 的 


分 布 . 

泛 化 错误 率 为 e 的 学 习 器 在 一 个 样本 上 犯错 的 概率 是 ; 测试 错误 率 € 意味 
着 在 mm 个 测试 样本 中 恰 有 ê x m 个 被 误 分 类 . 假定 测试 样本 是 从 样本 总 体 分 布 
中 独立 采样 而 得 , 那么 泛 化 错误 率 为 的 学 习 器 将 其 中 m/ 个 样本 误 分 类 、 其 
余 样 本 全 都 分 类 正确 的 概率 是 em' (1 e, 由 此 可 估算 出 其 恰 将 Exm 个 
样本 误 分 类 的 概率 如 下 式 所 示 , 这 也 表达 了 在 包含 m 个 样本 的 测试 集 上 , 泛 化 
错误 率 为 e 的 学 习 器 被 测 得 测试 错误 率 为 E 的 概率 : 


PED = (0 ) "0 orem. (2.26) 


给 定 测试 错误 率 , 则 解 OP (e; €)/3e = 0 WH, P(e €) Æ € = ê RK, |e — êl 3 


大 时 P(é;@) BUD. 这 符合 二 项 (binomial) 分 布 , 如 图 2.6 所 示 , Æ e= 0.3, 则 10 
个 样本 中 测 得 3 个 被 误 分 类 的 概率 最 大 . 





0 2 4 6 8 10 
误 分 类 样本 数 


图 2.6 二 项 分 布 示 意图 (m = 10,e = 0.3) 


我 们 可 使 用 “二 项 检验 ”(binomial test) EX “e < 0.3”( 即 “ 泛 化 错误 率 是 
否 不 大 于 0.3”) 这 样 的 假设 进行 检验 ， 更 一 般 的 , 考虑 假设 “ce < eo”, 则 在 
1 — a 的 概率 内 所 能 观测 到 的 最 大 错误 率 如 下 式 计算 . 这 里 — a 反映 了 结论 的 
“置信 度 ”(confidence), 直观 地 来 看 , 相应 于 图 2.6 中 非 阴影 部 分 的 范围 


m 


€=maxe st. ` 7 的 (TL (2:27) 
1=€9 XmM+1 í | 
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二 项 检验 的 临界 值 在 民 
语言 中 可 通过 qbinom(1 一 
a,m,eo)it #, Æ Matlab 
中 是 icdf (/Binomial/,1 一 
a,m, €o). 


R 语言 是 面向 统计 计 
划 的 开源 脚本 语言 ， 参见 


www.r-project.org. 
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此 时 若 测试 错误 率 E 小 于 临界 值 则 根据 二 项 检验 可 得 出 结论 : 在 a 的 显著 度 
F, 假设 “e < eo” 不 能 被 拒绝 , 即 能 以 1 一 a 的 置信 度 认 为 , 学 习 器 的 泛 化 错误 
率 不 大 于 eo; 否则 该 假设 可 被 拒绝 , 即 在 a 的 显著 度 下 可 认为 学 习 器 的 泛 化 错 
误 率 大 于 eo. 

”在 很 多 时 候 我 们 并 非 仅 做 一 次 留 出 法 估计 而 是 通过 多 次 重复 留 出 法 或 是 
交叉 验证 法 等 进行 多 次 训练 /测试 , 这 样 会 得 到 多 个 测试 错误 率 , 此 时 可 使 用 
“t 检验 ”(t-test). 假定 我 们 得 到 了 个 测试 错误 率 , ê, êz... êk, 则 平均 测试 
错误 率 /和 方差 02h | 


4 k 
1 NS、。 
p= 7 De (2.28) 
i=1 
ot Gay 2.29 
三 二 六 (人 内 (2.29) 
i=1 


考虑 到 这 个 测试 错误 率 可 看 作 泛 化 错误 率 eo 的 独立 采样 , 则 变量 


_ VE -加 (2.30) 


服从 自由 度 为 有 一 1 的 守 分 布 , 如 图 2.7 所 示 . 





2.7 oe ar | 


对 假设 “u= e0” 和 显著 度 o, 我 们 可 计算 出 当 测 试 错误 率 均值 为 eo 时 , 在 
1— a 概率 内 能 观测 到 的 最 大 错误 率 , 即 临 界 值 . 这 里 考虑 双边 (two-tailed) 假 
设 , 如 图 2.7 所 示 , 两 边 阴 影 部 分 各 有 a/2 的 面积 ; 假定 阴影 部 分 范围 分 别 为 
[005 taal Mita p een tn hn Te o ZE |u — col LF AE 8 
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临界 值 ta/2 在 R 语 言 
中 可 通过 qt(1 一 a/2,k — 
1) 计算 , 在 Matlab 中 是 
icdf(’T’,1— a/2,k— 1). 
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taj taj] 内 , 则 不 能 拒绝 假设 “1 = eo”, 即 可 认为 泛 化 错误 率 为 eo, 置信 度 为 
1-a; 否则 可 拒绝 该 假设 , 即 在 该 显著 度 下 可 认为 泛 化 错误 率 与 eo 有 显著 不 
同 . a 常用 取 值 有 0.05 和 0.1. 表 2.3 给 出 了 一 些 常用 临界 值 . 


表 2.3 双边 + 检验 的 常用 临界 值 


| k 
2 5 10 20 30 | 


0.05 12.706 2.776 2.262 2.093 2.045 
0.10_ 6.314 2.132 1.833 1.729 1.699 


Q 


上 面 介绍 的 两 种 方法 都 是 对 关于 单个 学 习 器 泛 化 的 假设 进行 检验 , 而 
在 现实 任务 中 , 更 多 时 候 我 们 需 对 不 同学 习 器 的 性 能 进行 比较 , 下 面 将 介绍 适 
用 于 此 类 情况 的 假设 检验 方法 . 
2.4.2 交叉 验证 t 检验 

对 两 个 学 习 器 AMB, 若 我 们 使 用 折 交 又 验证 法 得 到 的 测试 错误 率 分 
BUA ef, eb,..., cA Fl e} BEB, 其 中 ef 和 cP 是 在 相同 的 第 i 折 训 练 / 测 
试 集 上 得 到 的 结果 , 则 可 用 折 交 叉 验证 “成 对 tR” (paired t-tests) 来 进行 
比较 检验 . 这 里 的 基本 思想 是 车 两 个 学 习 器 的 性 能 相同 , 则 它们 使 用 相同 的 训 


练 /测试 集 得 到 的 测试 错误 率 应 相同 , 即 cf = cB. 


具体 来 说 , 对 上 折 交 又 验证 产生 的 对 测试 错误 率 : 先 对 每 对 结果 求 差 ， 
A; = ef 一 eB; 若 两 个 学 习 器 性 能 相同 , 则 差 值 均值 应 为 零 . 因此 , 可 根据 差 值 
Ay, Ao,..., Ap ROO FU A 与 B 性 能 相同 > 这 个 假设 做 上 检验 , 计算 出 差 值 
的 均值 4 和 方差 o?, 在 显著 度 a 下 , See 
vku 


Tt = | 
oO 








(2.31) 


小 于 临界 值 如 ma 4_1, 则 假设 不 能 被 拒绝 , 即 认为 两 个 学 习 器 的 性 能 没有 显著 差 
别 ; 否则 可 认为 两 个 学 习 器 的 性 能 有 显著 差别 , 且 平 均 错误 率 较 小 的 那个 学 习 

器 性 能 较 优 . 这 里 如 /ak _1 是 自由 度 为 一 1 的 t 分 布 上 尾部 累积 分 布 为 a/2 
的 临界 值 


欲 进 行 有 效 的 假设 检验 , 一 个 重要 前 EEN 试 错误 率 均 为 泛 化 错误 率 的 独 
立 采样 . 然而 , 通常 情况 下 由 于 样本 有 限 , 在 使 用 交叉 验证 等 实验 估计 方法 时 ， 
不 同 轮 次 的 训练 集会 有 一 定 程度 的 重 仅 , 这 就 使 得 测试 错误 率 实际 上 并 不 独立 ， 


会 导致 过 高 估计 假设 成 立 的 概率 . 为 绥 解 这 一 问 题 , 可 采用 “5 x 2 交叉 验证 ” 
ww ai bbt. com N0 0 O0 
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中 文 称 为 “ 卡 方 分 布 ”. 


临界 值 x2 在 R 语 
言 中 可 通过 qchisq(1 一 
a,k—1)i+#, 在 Matlab 中 
是 icdf(/Chisquare’,1 一 
ak—1). RBWk = 2 
是 进行 比较 的 算法 个 数 . 
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法 [Dietterich, 1998]. | 

5x2 交叉 验证 是 做 5 次 2 折 交 又 验证 , 在 每 次 2 折 交 义 验 证 之 前 随机 将 数 
据 打 乱 , 使 得 5 次 交叉 验证 中 的 数据 划分 不 重复 . 对 两 个 学 习 器 A 和 B, 第 i 次 
2 折 交 又 验 证 将 产生 两 对 测试 错误 率 , 我 们 对 它们 分 别 求 差 , 得 到 第 1 折 上 的 差 
值 A} 和 第 2 折 上 的 差 值 A2. 为 缓解 测试 错误 率 的 非 独 立 性 , 我 们 仅 计 算 第 1 
次 2 折 交 又 验证 的 两 个 结果 的 平均 值 jy = 0.5(At + AZ), 但 对 每 次 2 折 实 验 的 
结果 都 计算 出 其 方差 中 一 (A! - SERAE)" + (A? -全 4 各) . 变量 : 


(a (2.32) 
5 
4 [0.2 2 o? 


服从 目 由 度 为 5 的 t aA 其 双边 检验 的 临界 信 tans 5 当 ， œ = 0.05 时 为 2.5706, 
a = 0.1 时 为 2.0150. 
2.4.3 McNemar 检验 | 

对 二 分 类 问题 , 使 用 留 出 法 不 仅 可 估计 出 学 习 器 A M B 的 测试 错误 率 , 还 
可 获得 两 学 习 才 分 类 结 朱 的 差别 , 即 两 者 都 正确 、 都 错误 、 一 个 正确 尺 一 个 错 
误 的 样本 数 , 如 “ 列 联 表 ”(contingency table) 2.4 所 示 . 


表 2.4 两 学 习 器 分 类 差别 列 联 表 | 





大 我 们 做 的 假设 是 两 学 习 器 性 能 相同 , 则 应 有 eol = elo, 那么 变量 
|eol 一 ei0| 应 当 服 从 正 态 分 布 , AEA 1, NEN eol + e10. 因此 变量 


„oraa (2.33) 
e01 + €10 


服从 自由 度 为 1 的 x2 分 布 , 即 标准 正 态 分 布 变量 的 平方 . 给 定 显著 度 w 当 以 
上 变量 值 小 于 临界 值 x2 时 , 不 能 拒绝 假设 , 即 认为 两 学 习 器 的 性 能 没有 显著 差 
别 ; 否则 拒绝 假设 , 即 认为 两 者 性 能 有 显著 差别 , 且 平 均 错 误 率 较 小 的 那个 学 习 
器 性 能 较 优 . 自由 度 为 1 的 x 检验 的 临界 值 当 a = 0.05 时 为 3.8415, a= 0.1 


时 为 2.7055. 
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2.4.4 Friedman 检验 与 Nemenyi 后 续 检验 


交叉 验证 上 检验 和 McNemar 检验 都 是 在 一 个 数据 集 上 比较 两 个 算法 的 
性 能 , 而 在 很 多 时 候 , 我 们 会 在 一 组 数据 集 上 对 多 个 算法 进行 比较 . 当 有 多 个 
”算法 参与 比较 时 , 一 种 做 法 是 在 每 个 数据 集 上 分 别 列 出 两 两 比较 的 结果 , 而 在 
两 两 比较 时 可 使 用 前 述 方 法 ; 另 一 种 方法 更 为 直接 , 即使 用 基于 算法 排序 的 
Friedman 检验 . | S 
假定 我 们 用 Dy. Dz Ds 和 D4 四 个 数据 集 对 算法 A、B、C 进行 比较 . 
首先 , 使 用 留 出 法 或 交叉 验证 法 得 到 每 个 算法 在 每 个 数据 集 上 的 测试 结果 , 然 
后 在 每 个 数据 集 上 根据 测试 性 能 由 好 到 坏 排 序 , 并 赋予 序 值 1, 2, ...; 若 算法 的 
测试 性 能 相同 , 则 平分 序 值 . 例如 , 在 Di 和 D3 E, A 最 好 、B 其 次 、C 最 差 ， 
而 在 D E, A 最 好 、B 与 C 性 能 相同 , ……, 则 可 列 出 表 2.5, 其 中 最 后 一 行 通 
过 对 每 一 列 的 序 值 求 平均 , 得 到 平均 序 值 . 


表 2.5 算法 比较 序 值 表 


数据 集 FRA 算法 也 算法 C 
Di 1 | 2 8 
Də 1 2.5 2.5 

Ds 1 2 3 
Da 1 2 3 

1 


平均 序 值 2.125 2.875 


然后 , 使 用 Friedman 检验 来 判断 这 些 算法 是 否 性 能 都 相同 . 若 相同 , 则 它 
们 的 平均 序 值 应 当 相同 . 假定 我 们 在 N 个 数据 集 上 比较 个 算法 , 令 m 表示 第 


i 个 算法 的 平均 序 值 , 为 简化 讨论 , 暂 不 考虑 平分 序 值 的 情况 , 则 ri 服从 正 态 分 
布 , 其 均值 和 方差 分 别 为 (k 十 1)/2 M (k? — 1)/12. 变量 


k—1 12N k+1 
=k maD 2 ) 


12N /< k(k + 1)? 
~ k(k+1) (> Re ) | d 


在 上 入 都 较 大 时 , 服从 自由 度 为 5 1 的 X2 分 布 
然而 , 上 述 这 样 的 “原始 Friedman 检验 ”过 于 保守 , 现在 通常 使 用 变量 | 








(N 一 Lr 


j N(k—1)- Tr ’ 
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TF (2.35) 





2.4 ”比较 检验 


下 检验 的 临界 值 在 民 语 
言 中 可 通过 gf (1 一 Qa,k 一 
1, (k 一 1)(N 一 1)) 计算 ,在 
Matlab 中 是 icdf(/F’,1— 
a,k—1,(k—-1)*(N-1)). 


da 是 Tukey 分 布 的 临 
Ri, 在 R 语言 中 可 通 
过 qtukey(1—a,k, Inf) / 
sqrt (2) 计算 . 
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其 中 rs 由 式 (2.34) 得 到 . rr 服从 自由 度 为 一 1 和 (k 一 1)(N 一 1) 的 下 分 布 ， 
表 2.6 给 出 了 一 些 常 用 临界 值 . 


表 2.6 不 检验 的 常用 临界 值 


数据 集 ”算法 个 数 天 
个 数 N 2 3 4 5 6 7 8 9 10 
4 10.128 5.143 3.863 3.259 2.901 2.661 2.488 2.355 2.250 
5 7.709 4.459 3.490 3.007 2.711 2.508 2.359 2.244 2.153 
8 5.591 3.739 3.072 2.714 2.485 2.324 2.203 2.109 2.032 
10 5.117 3.555 2.960 2.634 2.422 2.272 2.159 2.070 1.998 
15 4.600 3.3840 2.827 2.537 2.346 2.209 2.104 2.022 1.955 
20 4.381 3.245 2.766 2.492 2.310 2.179 2.079 2.000 1.935 
a=0.1 | 
数据 集 F FRIEDA k 
个 数 N 2 3 4 5 6 7 8 9 10 
4 5.538 3.463 2.813 2.480 2.273 2.130 2.023 1.940 1.874 
5 4.545 3.113 2.606 2.333 2.158 2.035 1.943 1.870 1.811 
8 3.089 2.726 2.365 2.157 2.019 1.919 1.843 1.782 1.733 
10 3.360 2.624 2.299 2.108 1.980 1.886 1.814 1.757 1.710 
.15 3.102 2.503 2.219 2.048 1.931 1.845 1.779 1.726 1.682 
20 2.990 2.448 2.182 2.020 1.909 1.826 1.762 1.711 1.668 
和 若 “ 上 所 有 算法 的 性 能 相同 ”这 个 假设 被 拒绝 , 则 说 明 算法 的 性 能 显著 不 
同 . 这 时 需 进 行 “ 后 续 检 验 ”(post-hoc test) 来 进一步 区 分 各 算法 . 常用 的 有 
Nemenyi 后 续 检 验 ， 
Nemenyi 检验 计算 出 平均 序 值 差别 的 临界 值 域 
k(k +1) 
Cpa aL 2.36 
da 6N ( ) 


表 2.7 给 出 了 a = 0.05 和 0.1 时 常用 的 qa 值 . 若 两 个 算法 的 平均 序 值 之 差 超出 
了 临界 值 域 CD, 则 以 相应 的 置信 度 拒绝 “两 个 算法 性 能 相同 ”这 一 假设 
表 2.7 Nemenyi 检验 中 常用 的 qa 值 
算法 个 数 
2 3 4. 5 6 7 8 9 10 


0.05 1.960 2.344 2.569 2.728 2.850 2.949 3.031 3.102 3.164 
0.1 1.645 2.052 2.291 2.459 2.589 2.693 2.780 2.855 2.920 


ww ai bbt. com Ea 





44 
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” ”第 2 章 ”模型 评估 与 选择 


以 表 2.5 中 的 数据 为 例 , 先 根据 式 (2.34) 和 (2.35) 计 算出 rr = 24.429, 由 表 
2.6 可 知 , EKF a = 0.05 时 的 五 检验 临界 值 5.143, 因此 拒绝 “所 有 算法 性 
能 相同 ” 这 个 假设 . 然后 使 用 Nemenyi 后 续 检 验 , 在 表 2.7 PRA) k = 3 时 


“go.05 = 2.344, 根据 式 (2.36) 计 算出 临界 值 域 CD = 1.657, 由 表 2.5 中 的 平均 序 


值 可 知 , 算法 A 与 B 的 差距 , 以 及 算法 B 与 C 的 差距 均 未 超过 临界 值 域 , 而 算 
法 A 与 C 的 差距 超过 临界 值 域 , 因此 检验 结果 认为 算法 A 与 C 的 性 能 显著 不 
F, 而 算法 A 与 B、 以 及 算法 B 与 C 的 性 能 没有 显著 差别 . 

上 述 检 验 比 较 可 以 直观 地 用 Friedman 检验 图 显示 . 例如 根据 表 2.5 的 序 
值 结果 可 绘制 出 图 2.8, 图 中 纵 轴 显示 各 个 算法 , 横 轴 是 平均 序 值 . 对 每 个 算法 ， 
用 一 个 圆 点 显示 其 平均 序 值 , 以 圆 点 为 中 心 的 横 线段 表示 临界 值 域 的 大 小 . 然 


”后 就 可 从 图 中 观察 , 若 两 个 算法 的 横 线段 有 交友 , 则 说 明 这 两 个 算法 没有 显著 


差别 , 否则 即 说 明 有 显著 差别 . 从 图 2.8 中 可 容易 地 看 出 , 算法 A 与 己 没有 显著 
ZA, 因为 它们 的 横 线 段 有 交警 区 域 , 而 算法 A 显著 优 于 算法 C ,因为 它们 的 
横 线 段 没 有 交合 区 域 . | 





2.8 Friedman 检验 图 


25 偏差 与 方差 


对 学 习 算 法 除了 通过 实验 估计 其 泛 化 性 能 , 人 们 往往 还 希望 了 解 它 “为 什 
么 ”具有 这 样 的 性 能 . “偏差 -方差 分 解 ” (bias-variance nani Aeon eh 
释 学 习 算 法 泛 化 性 能 的 一 种 重要 工具 . 

偏差 -方差 分 解 试图 对 学 习 算 法 的 期 望 泛 化 错误 率 进行 拆 解 . 我 们 知道 , 算 
法 在 不 同 训练 集 上 学 得 的 结果 很 可 能 不 同 , 即便 这 些 训练 集 是 来 自 同一 个 分 布 . 
对 测试 样本 z, 令 令 yp 为 x 在 数据 集中 的 标记 , y 为 z 的 真实 标记 ， f(a; D) 为 训 


aS DLS FIR A f 在 x 上 的 预测 输出 此 回 归 任 务 为 例 ， 学 习 算法 的 期 望 预 


.Com [H O00 





25 ”偏差 与 方差 45 
测 为 
f(x) = 了 Ep[ftz;D)] , (2.37) 
使 用 样本 数 相同 的 不 同 训练 集 产生 的 方差 为 、 
var(x) = Ep (f (x; D) 一 Ta , (2.38) 
噪声 为 | 
e2 一 Ep (up 一 y)’ è (2.39) 
期 望 输出 与 真实 标记 的 差别 称 为 偏差 (bias), 即 
biasz(z) = (f (æ)- y) . (2.40) 
为 便于 讨论 , 假定 噪声 期 望 为 零 , 即 Eplyp -y = 0. 通过 简单 的 多 项 式 展开 合 
并 , 可 对 算法 的 期 望 泛 化 误差 进行 分 解 : 
E(f; D) = Ep |(f (æ; D) — wo) | 
= Ep |(f (æ; D) - F (æ) + F (æ) - wv)’ | 
= Ep | (f (æ; D) — f(z) | + Ep | (F @) - vp)?! 
+ Ep [2 (f (æ; D) — f ( 
=Ep [(f (=; D) - F(z)) | +E» | 
= Ep |(f (æ; D) - F (@))”| + Ep |(F(@) -y +y- yp)” 
-= Ep |(f (æ; D) - F(@))"] + Ep [(F 


由 式 (2.37), 最 后 项 为 0. 


kB IND AO, : 
ae ara. + 2Ep |(f (æ) — y) (y — yp)] 


= Ep (f (æ; D) — F(z)) "| + (F(x) - y) +Ep (up 一 由 ?| 
(2.41) 
FË, 
E(f; D) = bias? (x) + var (x) + €° , (2.42) 
也 就 是 说 , 泛 化 误差 可 分 解 为 偏差 、 方 差 与 噪声 之 和 


EE JÆ. RA HIR X: 偏差 (2.40) 度 量 了 学 习 算法 的 期 望 预测 与 
3 bee com ANE 





46 





很 多 学 习 算 法 都 可 控制 
训练 程度 ,例如 决策 树 可 
控制 层 数 , 神经 网 络 可 控 
制 训练 轮 数 , 集成 学 习 方 
”法 可 控制 基 学 习 器 个 数 . 


第 2 章 模型 评估 与 选择 


真实 结果 的 偏离 程度 , 即刻 画 了 学 习 算 法 本 身 的 拟 合 能 力 ; 方差 (2.38) 度 量 了 同 
样 大 小 的 训练 集 的 变动 所 导致 的 学 习性 能 的 变化 , 即刻 画 了 数据 扰动 所 造成 的 
影响 ; 噪声 (2.39) 则 表达 了 在 当前 任务 上 任何 学 习 算法 所 能 达到 的 期 望 泛 化 误 
差 的 下 界 , 即刻 画 了 学 习 问题 本 身 的 难度 . 偏差- 方差 分 解说 明 , 泛 化 性 能 是 由 
学 习 算法 的 能 力 、 数 据 的 充分 性 以 及 学 习 任务 本 身 的 难度 所 共同 决定 的 . 给 定 
学 习 任 务 , 为 了 取得 好 的 泛 化 性 能 , 则 需 使 偏差 较 小 , 即 能 够 充分 拟 合 数据 , 并 
且 使 方差 较 小 , 即使 得 数据 扰动 产生 的 影响 小 . 

一 般 来 说 , 偏差 与 方差 是 有 冲突 的 , 这 称 为 偏差 -方差 窘境 (bias-variance 
dilemma). 图 2.9 给 出 了 一 个 示意 图 . 给 定 学 习 任务 , 假定 我 们 能 控制 学 习 算 法 


的 训练 程度 , 则 在 训练 不 足 时 , 学 习 器 的 拟 合 能 力 不 够 强 , 训练 数据 的 扰动 不 足 


以 使 学 习 器 产生 显著 变化 , 此 时 偏差 主导 了 泛 化 错误 率 ; 随 着 训练 程度 的 加 深 ， 
学 习 器 的 拟 合 能 力 逐 渐 增强 , 训练 数据 发 生 的 扰动 渐渐 能 被 学 习 器 学 到 , 方差 
逐渐 主导 了 泛 化 错误 率 ; 在 训练 程度 充足 后 , 学 习 器 的 拟 合 能 力 已 非常 强 , 训练 
数据 发 生 的 轻微 扰动 都 会 导致 学 习 器 发 生 显著 变化 , 若 训练 数据 自身 的 、 非 全 
局 的 特性 被 学 习 器 学 到 了 , 则 将 发 生 过 拟 合 . 


取 值 





训练 程度 


图 2.9 泛 化 误差 与 偏差 、 方 差 的 关系 示意 图 


2.6 阅读 材料 
。 自助 采样 法 在 机 器 学 习 中 有 重要 用 途 , [Efron and Tibshirani, 1993] 对 此 
进行 了 详细 的 讨论 . 
ROC 曲线 在 二 十 世纪 八 十 年 代 后 期 被 引入 机 器 学 习 [Spackman, 1989], 


AUC EN ait com COATT AE 页 域 广 为 使 用 vied 1997], 但 利用 
WW al com 





2.6 ”阅读 材料 


2.3.4 节 仅 讨论 了 基于 类 
别 的 误 分 类 代价 . 
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ROC 曲线 下 面积 来 评价 模型 期 望 性 能 的 做 法 在 医疗 检测 中 早已 有 之 [Hanley 
and McNeil, 1983]. [Hand and Till, 2001] 将 ROC 曲线 从 二 分 类 任务 推广 到 多 
分 类 任务 . [Fawcett, 2006] 综述 了 ROC 曲线 的 用 途 . 

[Drummond | Holte, 2006] 发 明了 代价 曲线 . 需 说 明 的 是 , 机 器 学 习 过 
程 涉及 许多 类 型 的 代价 , 除了 误 分 类 代价 , 还 有 测试 代价 、 标 记 人 代价、 属性 代 
价 等 , 即便 仅 考虑 误 分 类 代价 , 仍 可 进一步 划分 为 基于 类 别 的 误 分 类 代价 以 及 
基于 样本 的 误 分 类 代价 . 代价 敏感 学 习 (cost-sensitive learning) [Elkan, 2001; 
Zhou and Liu, 2006] 专门 研究 非 均等 代价 下 的 学 习 . 

[Dietterich, 1998] 指出 了 常规 k 折 交叉 验证 法 存在 的 风险 , 并 提出 了 5 x 2 
交叉 验证 法 . [Demsar, 2006] 讨论 了 对 多 个 算法 进行 比较 检验 的 方法 . 

[Geman et al., 1992] 针对 回归 任务 给 出 了 偏差 -方差 - 协 方差 分 解 (bias- 
variance-covariance decomposition), 后 来 被 简称 为 偏差 -方差 分 解 . 虽然 偏差 
和 方差 确实 反映 了 各 类 学 习 任务 内 在 的 误差 决定 因素 , 但 式 (2.42) 这 样 优美 的 
形式 仅 在 基于 均 方 误差 的 回归 任务 中 得 以 推导 出 . 对 分 类 任务 , 由 于 0/1 损失 
函数 的 跳 变 性 , 理论 上 推导 出 偏差 -方差 分 解 很 困难 . 已 有 多 种 方法 可 通过 实 
验 对 偏差 和 方差 进行 估计 [Kong and Dietterich, 1995; Kohavi and Wolpert, 
1996; Breiman, 1996; Friedman, 1997; Domingos, 2000]. 
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数据 集 包含 1000 个 样本 , 其 中 500 个 正 例 、500 个 反例 , 将 其 划分 为 
包含 70% 样本 的 训练 集 和 30% 样本 的 测试 集 用 于 留 出 法 评估 , 试 人 
算 共 有 多 少 种 划分 方式 


数据 集 包含 100 个 样本 , 其 中 正 、 反 例 各 一 半 , 假定 学 习 算法 所 产生 

的 模型 是 将 新 样本 预测 为 训练 样本 数 较 多 的 类 别 ( 训 练 样本 数 相同 时 

进行 随机 攻 测 ) 试 给 出 用 10 折 交 叉 验证 法 和 留 一 法 分 别 对 错误 率 进 
行 评估 所 得 的 结果 . 

FFRAM FI 值 比 学 习 器 B 高 , 试 析 A 的 BEP 值 是 否 也 比 也 高 


试 述 真正 例 率 (TPR)、 Un 
的 联系 . 


试 证 明 式 (2.22). 
试 述 错误 率 与 ROC 曲线 的 联系 . 
试 证 明 任意 一 条 ROC 曲线 都 有 一 条 代价 曲线 与 之 对 应 , 反之 亦 然 


Min-max 规范 化 和 z-score 规范 化 是 两 种 常用 的 规范 化 方法 . 令 z 和 
a! 分 别 表示 变量 在 规范 化 前 后 的 取 值 , 相应 的 , 令 zmin 和 Emar 表示 
规范 化 前 的 最 小 值 和 最 大 值 , 2 和 Emar 表示 规范 化 后 的 最 小 值 和 
EAH, zM oz 分 别 表示 规范 化 前 的 均值 和 标准 差 , 则 min-max 规范 
化 、z-score 规范 化 分 别 如 式 (2.43) 和 (2.44) 所 示 . 试 析 二 者 的 优 缺 点 . 





a! = Bling tb X (Bae — Enin) (243) 
Tmax 一 Tmin 
= ; 2.44 
fate eae 
试 述 X2 检验 过 程 


试 述 在 Friedman 检验 中 使 用 式 (2.34) 与 (2.35) 的 区 别 . 
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小 故事 : t Ree. “AR” BOR Be 

1899 F, 由 于 爱尔兰 都 柏林 的 吉 尼 斯 啤酒 厂 热 圳 于 聘 
用 剑桥 、 牛 津 的 优秀 毕业 生 , 学 化 学 的 牛津 毕业 生 威 廉 。 戈 
56 FF (William Gosset, 1876—1937) 到 该 厂 就 职 , 希望 将 他 
的 生物 化 学 知识 用 于 啤酒 生产 过 程 . 为 降低 啤酒 质量 监控 
的 成 本 ， KBAR WAY tiw, 1908 年 在 Biometrika 发 
表 . 为 防止 泄漏 商业 机 密 , 蕊 瑟 特 发 表 文章 时 用 了 笔名 “学 生 ”, 于 是 该 方法 被 
称 为 “学 生 氏 十 检验 ”(Student's t-test). 

吉 尼 斯 啤酒 厂 是 一 家 很 有 远见 的 企业 , 为 保持 技术 人 员 的 高 水 准 , 该 
厂 像 高 校 一 样 给 予 技 术 人 员 “学 术 假 ”，1906 一 1907 FR MAA Bl “A 
计 学 之 父 ” 卡 尔 。 皮 尔 逊 (Karl Pearson, 1857—1936) 教授 在 伦敦 大 学 学 院 
(University College London, 简称 UCL) 的 实验 室 访 问 学 习 . 因此 , 很 难说 + 
检验 法 是 戈 瑟 特 在 啤酒 厂 还 是 在 UCL 访 学 期 间 提 出 的 , SRA” FR 
MEZA NKA ZR UCL 的 统计 学 家 们 发 现 的 , 尤其 因为 皮尔 逊 教授 恰 是 
Biometrika 的 主编 . 
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” 亦 称 “可 理解 性 ” (un- 
derstandability). 


第 3 章 ”线性 模型 


3.1 基本 形式 
给 定 由 d 个 属性 描述 的 示例 £= (zi; x2;...;za), 其 中 mi 是 zx 在 第 i 个 属 - 


”性 上 的 取 值 , 线性 模型 (linear model) 试 图 学 得 一 个 通过 属性 的 线性 组 合 来 进行 


预测 的 函数 , 即 
f(x) = W121 + W2£2 + ... + Wala tb, (3.1) 


一 般 用 向 量 形式 写成 
f(z) =wiat+b, (3.2) 


其 中 w = (wi; w;...; Wa). w M b ZEZ, 模型 就 得 以 确定 . 
线性 模型 形式 简单 、 易 于 建 模 , 但 却 草 涵 着 机 器 学 习 中 一 些 重要 的 基本 思 

想 . 许多 功能 更 为 强大 的 非 线 性 模型 (nonlinear model) 可 在 线性 模型 的 基础 上 
通过 引入 层级 结构 或 高 维 映射 而 得 . 此 外 , 由 于 w 直观 表达 了 各 属性 在 预测 中 
的 重要 性 , 因此 线性 模型 有 很 好 的 可 解释 性 (comprehensibility). 例如 若 在 西瓜 
问题 中 学 得 “f 好 (2X) = 0.2 . reg + 0.5- rag 十 0.3 rya +1” , URSA 
通过 综合 考虑 色泽 、 根 蒂 和 敲 声 来 判断 瓜 好 不 好 , 其 中 根 蒂 最 要 紧 , 而 敲 声 比 
色泽 更 重要 . | E 

”本 章 介绍 几 种 经 典 的 线性 模型 . 我 们 先 从 回归 任务 开始 , 然后 讨论 二 分 类 
和 多 分 类 任务 . 


3.2 线性 回归 


给 定数 据 集 DD = {(21, 41), (2, 42),---, (Em Ym)}, 其 中 xi = (z1; 
Ti2;--.; Zid), yi E R. “AEE” (linear regression) 试 图 学 得 一 个 线性 模 
型 以 尽 可 能 准确 地 预测 实 值 输出 标记 . 

我 们 先 考 虑 一 种 最 简单 的 情形 : 输入 属性 的 数目 只 有 一 个 . 为 便于 讨论 , 此 
时 我 们 忽略 关于 属性 的 下 标 , 即 D = {(2,,y)}™,, 其 中 zi e 及 .对 离散 属性 ， 
FREENET E” (order) A, RU JH ERER R Ree A ESE, 例如 二 


. Com [] 
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若 将 无 序 属 性 连续 化 
则 会 不 恰当 地 引入 序 关 系 ， 
对 后 续 处 理 如 距离 计算 等 
造成 误导 , 参见 9.3 F. 


(square loss). 


0* ,bx RAR w Fe b 的 解 . 


最 小 二 乘法 用 途 很 广 ， 
不 仅 限于 线性 回归 . 


这 里 Evw,b) RAF w 和 
bats Bk, 当 它 关于 内 和 
b 的 导数 均 为 零 时 , 得 到 w 
Fe b Hy AF. 

对 区 间 [a,b] 上 定义 
的 函数 f, FEM EM 
中 任意 两 点 21,02 WA 
f(y < Flert fea), 
则 称 了 为 区 间 [a,b] kG 


U 形 曲 线 的 函数 如 
f(a) =x, BRR BK. 


— MERE EY BR, 可 
通过 求 二 阶 导数 来 判别 : 
若 二 阶 导 数 在 区 间 上 非 负 ， 
NIRA b Ak; 若 二 阶 导 


数 在 区 间 上 恒 大 于 O, WAR 


为 严格 丁 画 数 ， 


OERE SEA” 的 取 值 “ 高 >” “<BR” 可 转化 为 {1.0,0.0}, 三 值 属 
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“高 度 22 
的 取 值 “ 高 > “中 ”“ 低 ”可 转化 为 {1.0,0.5,0.0}; 车 属性 值 间 不 存在 序 关 
A, 假定 有 个 属性 值 , 则 通常 转化 为 天 维 向 量 , 例如 属性 “ 瓜 类 ”的 取 值 “ 西 
JIA”? “南瓜 ” “黄瓜 ” 可 转化 为 (0, 0, 1), (0, 1, 0), (1, 0, 0). 
线性 回归 试图 学 得 
f(zi) = wa; +b, 使 得 f(x) ~ yi - (3.3) 
如 何 确定 w Al DWE? 显然 , 关键 在 于 如 何 衡量 f(x) 与 y 之 间 的 差别 . 2.3 节 
介绍 过 , 均 方 误差 (2.2) 是 回归 任务 中 最 常用 的 性 能 度量 , 因此 我 们 可 试图 让 均 
方 误差 最 小 化 , 即 o | 


(w* p = arg min OU — yj)” 


(w,b) 


= arg min S — wa; — b)? . (3.4) 


cw, b) i=1 
- 均 方 误差 有 非常 好 的 几何 意义 ， 它 对 应 了 常用 的 欧 几 里 得 距离 或 简称 “ 欧 
REA” (Euclidean distance). 基于 均 方 误差 最 小 化 来 进行 模型 求解 的 方法 称 
为 “最 小 二 乘法 ”(least square method). 在 线性 回归 中 , 最 小 二 乘法 就 是 试图 
找到 一 条 直线 , 使 所 有 样本 到 直线 上 的 欧 多 氏 距 离 之 和 最 小 . | | 
求解 w 和 5 使 Ewo) = M1 (ys — was — b)? 最 小 化 的 过 程 , 称 为 线性 回归 


模型 的 最 小 二 乘 “参数 估计 ” (parameter estimation). 我 们 可 将 Eww,p) FA 
对 w Al DOR, 得 到 ， 
“ot b) _ 
102 -Suyu À (3.5) 
=1 
DB il | | | 
ee =2 (r 一 >, TA es) , (3.6) 
然后 令 式 (3.5) 和 (3.6) 为 零 可 得 到 ww All b 最 优 解 的 闭 式 (closed-form) 解 | 
5 yili — 2) 
w = — = (3:7) 


a 
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ta | 
b= du — wz) , : (3.8) 


其 中 5 一 去 È 为 > 的 均值 


m 
=1 


更 一 般 的 情形 是 如 本 节 开头 的 数据 集 D, 样本 由 atte. 此 时 我 人 


”试图 学 得 


f(zi) = wz; +b, 使 得 f(a) = yi, 
这 称 为 “多 元 线性 回归 ”(multivariate linear regression). 

”类 似 的 , 可 利用 最 小 二 乘法 来 对 w 和 b 进行 估计 . 为 便于 讨论 , RME w 
和 5 吸收 入 向 量 形式 ú = (w;b), 相应 的 , 把 数据 集 D 表示 为 一 个 m x (dt 1) 
大 小 的 矩阵 X , 其 中 每 行 对 应 于 一 个 示例 , BATH d 个 元 素 对 应 于 示例 的 d 个 
属性 值 , 最 后 一 个 元 素 恒 置 为 1, 即 


£11 T12 Lid 1 Ly 1 
T21 T22 Təd 1 x? 1 
X = , = ’ 
| T 


Tml m2 ... Lmd 1 Lin 1 
再 把 标记 也 写成 向 量 形式 y = (y1; yo; .….; Ym), 则 类 似 于 式 (3.4), 有 
w* = arg min (y — Xw)* (y — Xù) . (3.9) 


令 Eo = (y — Xô) (y — Xô), Hh od RIEF 


Ey 
Ow 


令 上 式 为 零 可 得 多 最 优 解 的 闭 式 解 ， 但 由 于 涉及 矩阵 道 的 计算 , 比 单 变量 情形 
要 复杂 一 些 . 下 面 我 们 做 一 个 简单 的 讨论 . 


x XTX 为 满 秩 和 矩阵 (full-rank matrix) 或 正定 矩阵 (positive definite ma- 
trix), 令 式 (3.10) 为 零 可 得 


=2 X" (Xù — y) . (3. 7. 


w* = (XTX) XTy, (3.11) 


其 中 (XTX) 是 KERE KTERE $ = (zi,1), 则 最 终 学 得 的 多 元 
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例如 , 生物 信息 学 的 基 
Ah SEP BAD RE 
万 个 属性 , 但 往往 只 有 几 
十 、 上 百 个 样 例 . 

回忆 一 下 : 解 线性 方程 
组 时 , 若 因 变量 过 多 , 则 会 
解 出 多 组 解 . 

归纳 偏好 参见 1.4 节 ; 正 
则 化 参见 6.4、11.4 节 . 
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线性 回归 模型 为 
X'y. (3.12) 


然而 , MREZE KIK 往往 不 是 满 秩 矩 阵 . 例如 在 许多 任务 中 我 们 会 遇 到 
大 量 的 变量 , 其 数目 甚至 超过 样 例 数 , 导致 X 的 列 数 多 于 行 数 , XTX 显然 不 满 
秩 . 此 时 可 人 解 出 多 个 已 , 它们 都 能 使 均 方 误差 最 小 化 . 选择 哪 一 个 解 作 为 输出 ， 
将 由 学 习 算 法 的 归纳 偏好 决定 , 常见 的 做 法 是 引入 正则 化 (regularization) 项 . 


线性 模型 昌 人 简单 , 却 有 丰富 的 变化 . 例如 对 于 样 例 (wy), y ER, SRA A 
望 线 性 模型 (3.2) 的 预测 值 通 近 真实 标记 y 时 , 就 得 到 了 线性 回归 模型 . 为 便于 
观察 , 我 们 把 线性 回归 模型 简写 为 


y=wanetd. (3.13) 


HY A eS FU (Ey 的 衍生 物 呢 ? 璧 如 说 , 假设 我 们 认为 示例 所 对 应 的 输 
出 标记 是 在 指数 尺度 上 变化 , 那 吏 可 将 输出 标记 的 对 数 作为 线性 模型 逼近 的 目 
标 ， 即 

lny = wg +b. (3.14) 


这 就 是 “对 数 线性 回归 ”(log-linear regression), 它 实际 上 是 在 试图 让 ew 2+? 
EA y. 式 (3.14) 在 形式 上 仍 是 线性 回归 , 但 实质 上 已 是 在 求 取 输 入 空间 到 输出 

空间 的 非 线 性 函数 映射 , 如 图 3.1 Bras. 这 里 的 对 数 函 数 起 到 了 将 线性 回归 模 
型 的 预测 值 与 真实 标记 联系 起 来 的 作用 . 





3.1 对 数 线性 回归 示意 图 
ww ai bbt. com TOOOO000 





3.3” 对 数 几 率 回归 


g(.) 连续 且 充 分 光滑 . 


广义 线性 模型 的 参数 估 
计 常 通过 加 权 最 小 二 乘法 
或 极 大 似 然 法 进行 . 


亦 称 Heaviside Hak. 
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更 一 般 地 , 考虑 单调 可 微 函数 g(.), 令 
y =g (w"æ +b), (3.15) 


这 样 得 到 的 模型 称 为 “广义 线性 模型 ”(generalized linear model), 其 中 函数 
JO) 称 为 “联系 函数 ”(link function). 显然 , 对 数 线性 回归 是 广义 线性 模型 在 
g(-) = In(-) 时 的 特例 . 


3.3 对 数 几 率 回 归 


上 一 节 讨 论 了 如 何 使 用 线性 模型 进行 回归 学 习 , 但 大 要 做 的 是 分 类 任务 该 
怎么 办 ? 答案 表 涵 在 式 (3.15) 的 广义 线性 模型 中 : 只 需 找 一 个 单调 可 微 函 数 将 
分 类 任务 的 真实 标记 y 与 线性 回归 模型 的 预测 值 联系 起 来 . 


考虑 二 分 类 任务 , 其 输出 标记 y © {0,1}, 而 线性 回归 模型 产生 的 预测 值 
z 二 wg +b EXW, TE, 我 们 需 将 实 值 z 转换 为 0/1 值 . 最 理想 的 是 “单位 
TERK AL” (unit-step function) 


0 220% 
=< 0.5, z=0; (3.16) 
L 2200. 


BUF WE z 大 于 零 就 判 为 正 例 , 小 于 零 则 判 为 反例 , 预测 值 为 临界 值 零 则 可 
任意 判别 , 如 图 3.2 所 示 . 





ee ae 
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简称 “对 率 函 数 ”， 


注意 对 数 几 率 函 数 与 
“st Ht BA” ln(.) 不 同 . 


Sigmoid 函数 即 形似 S 
的 函数 . MBM Sig- 
moid 函数 最 重要 的 代表 ， 
在 第 5 章 将 看 到 它 在 神经 
网 络 中 的 重要 作用 . 


Eas 为 “逻辑 回 
, 但 中 文 “ 逻 辑 ” 与 
an Fe logit 的 含义 相 
FHL, 因此 本 书 意译 为 
“xt ILE a” , 简称 
“对 率 回 归 ” . 7 


第 3 章 线性 模型 
但 从 图 3.2 可 看 出 , 单位 阶 跃 函数 不 连续 , 因此 不 能 直接 用 作 式 (3.15) 中 


的 g-(:).， 于 是 我 们 希望 找到 能 在 一 定 程度 上 近似 单位 阶 跃 函数 的 “ 替 
AX PK BL” (surrogate function)， 并 希望 它 单调 可 微 . 对 数 几 率 函 数 (logistic 


function) 正 是 这 样 一 个 常用 的 替代 PRB: 


.1 
y te = (3.17) 
从 图 3.2 可 看 出 , 对 数 几 率 函 数 是 一 种 “Sigmoid 函数 ”, 它 将 z 值 转化 为 一 个 
接近 0 或 1 的 y (A, 并 且 其 输出 值 在 z = 0 附近 变化 很 陡 . 将 对 数 几率 函数 作为 


g7 (-) 代入 式 (3.15), 得 到 





: 
y= (eee) (3.18) 
类 似 于 式 (3.14), 式 (3.18) 可 变化 为 
mn 一 wTrz+Db (3.19) 


车 将 y 视 为 样本 x 作为 正 例 的 可 能 性 , 则 1 一 y 是 其 反例 可 能 性 , 两 者 的 比值 


y 


称 为 “几率 ”(odds), 反映 了 2 作为 正 例 的 相对 可 上 E 性 . 对 几率 取 对 数 则 得 到 


“对 数 几 率 ”(log odds, 亦 称 logit) 





re (8.21) 


由 此 可 看 出 , 式 (3.18) 实 际 上 是 在 用 线性 回归 模型 的 预测 结果 去 逼近 


”真实 标记 的 对 数 几 率 , 因此 , 其 对 应 的 模型 称 为 “对 数 几 率 回 归 ”(logistic 


regression, 亦 称 logit regression). 特别 需 注意 到 , 虽然 它 的 名 字 是 “回归 ”, 但 
实际 却 是 一 种 分 类 学 习 方法 . 这 种 方法 有 很 多 优点 , 例如 它 是 直接 对 分 类 可 能 
性 进行 建 模 , 无 需 事先 假设 数据 分 布 , 这 样 就 避免 了 假设 分 布 不 准确 所 带 来 的 
问题 ; 它 不 是 仅 预测 出 “类 别 ”， 而 是 可 得 到 近似 概率 预测 ， 这 对 许多 需 利用 概 
率 辅助 决策 的 任务 很 有 用 ; 此 外 , 对 率 函数 是 任意 阶 可 导 的 凸 函数 , 有 很 好 的 数 


学 性 质 , WA ROVE SUR OLAS el TIR TARE. 


. COM. 
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下 面 我 们 来 看 看 如 何 确 定式 (3.18) 中 的 w b. 若 将 式 (3. 18) 中 的 y MAR 
后 验 概 率 估 计 p(y 二 1 | ax), 则 式 (3.19) 可 重 写 为 


=1lm ros 
In YA wa +b. 3.22 
ply=012) i 
显然 有 
ew a+b 
Ply = 1] @) = rer | | (3.23) 
1 | 
p(y =0|2) = (ieee (3.24) 


于 是 , 我 们 可 通过 “ 极 大 似 然 法 ” (maximum likelihood method) 来 估计 
BRIER TOS. ay 和 b， 给 定数 据 集 {(ai, yi) o 对 率 回 归 模 型 最 大 化 “对 数 似 然 ”(log- 
likelihood) — | | 


Sine | Tito, b) , (3.25) 


令 每 个 样本 属于 其 真实 标记 的 概率 越 大 越 好 . 为 便于 讨论 & B = (w;b), 
ê = (x;1), W wTe + 可 简写 为 B's. BS plê; b) = ply = 1 | #8), 
po(&; B) = p(y = 0 | &; 8) = 1 — pi (2; B), 则 式 (3.25) 中 的 似 然 项 可 重 写 为 


p(yi | xi; w, b) = yipı (ĉi; B) + (1 — yi)polêi; B) . (3.26) 


将 式 (3.26) 代 入 (3. 25), 并 根据 式 (3.23) 和 (3.24) 可 知 , 最 大 化 式 (3.25) 等 价 于 
最 小 化 | 
&(8) = 3 (- yi & +n (1 E e’ S) ; (3.27) 


 RBMEAF 有 的 高 阶 可 导 连 续 凸 函数 , 根据 凸 优化 理论 [Boyd and 
Vandenberghe, 2004], 经 典 的 数值 优化 算法 如 梯度 下 降 法 (gradient descent 


人 a method)、 人 牛顿 法 (Newton method) 等 都 可 求 得 其 最 优 解 ， 于 是 就 得 到 
8* = arg min L(A) . (3.28) 
B 


以 牛顿 法 为 例 , 其 第 + 十 工 轮 迭代 解 的 更 新 公式 为 





024() ) ~ 06(8) 
ee 3.29 
| mien Ge nin AR OB" 08 | 
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严格 说 来 LDA 与 Fisher 
判别 分 析 稍 有 不 同 , 前 者 
假设 了 各 类 样本 的 协 方 差 
矩阵 相同 且 满 秩 . 


第 3 章 线性 模型 


其 中 关于 B 的 一 阶 、 三 阶 导数 分 别 为 





=-2 ê: — pı (ĉi; B)) ， (3.30) 
2 
pan E 3 iti pr (#5; B)(1 — p1 (ĉu; B)) . (3.31) 


3.4 线性 判别 分 析 


线性 判别 分 析 (Linear Discriminant Analysis, 符 称 LDA) 是 一 种 经 典 的 线 
性 学 习 方 法 , 在 二 分 类 问题 上 因为 最 早 由 [Fisher, 1936] 提出 , INP “Fisher 判 
ADA” a | 


LDA 的 思想 非常 朴素 : 给 定 训练 样 例 集 , 设法 将 样 例 投影 到 一 条 直线 上 ， 
使 得 同类 样 例 的 投影 点 尽 可 能 接近 、 弄 类 样 例 的 投影 点 尽 可 能 远离 ; CE TE 
本 进行 分 类 时 , 将 其 投影 至 ee 
样本 的 类 别 . 图 3.3 给 出 了 一 个 二 维 示 意图 . 








图 3.3 LDA 的 二 维 示意 图 ，“+”、“-_” 分 别 代表 正 例 和 反例 , MAREE 
外 轮廓, 虚线 表示 投影 , 红色 实心 加 和 实心 三 角形 分 别 表 示 两 类 样本 投影 后 的 中 心 点 ， 


给 定数 据 集 D = {(ei,y) Ea, vi E€ {0,1}, 令 Xio mir Di PARANA 
i € {0,1} ROSIN. HENE PARE. AR By Bl A wE, 
则 两 类 样本 的 中 心 在 直线 上 的 投影 分 别 为 wl yo 和 wu; 若 将 所 有 样本 点 都 
投影 到 直线 上 ， J RPE ZR Da A Sa A wi Dow 和 wi diw. 由 于 直线 是 





一 维 空间 , 因此 wl po. wun wl Dow 和 wT Dw 均 为 实数 . 


欲 使 同类 样 例 的 投影 点 尽 可 能 接近 , 可 以 让 同类 样 例 投影 点 的 协 方差 尽 可 
能 小 , El wl Sow + wTZiao 尽 可 能 小 ; 而 欲 使 异类 样 例 的 投影 点 尽 可 能 远离 ， 
可 以 让 类 中 心 之 间 的 距离 尽 可 能 大 , 即 ||aoTpo — wul? 尽 可 能 大 . 同时 考虑 
二 者 , 则 可 得 到 和 欲 最 大 化 的 目标 


T= |w? Ho 一 他 Till 
widow + wiw 


Gee 
pc! al ll 7 aT iw (3.32) 


定义 “类 内 散 度 矩阵 ”(within-class scatter matrix) 


Sw = Mot hy . 
=) (2— Ho) (z — po) + >》 (w= pn) rp) (3.33) 
LEXO ZEX, 


DL “KREE” (between-class scatter matrix) 





So = (uo — p1) (Ho — m1)” ， (3.34) 
则 式 (3.32) 可 重 写 为 
o WwW Sow 
J= re (3.35) 


这 就 是 LDA 欲 最 大 化 的 目标 , 即 S, 与 Sw 的 “广义 瑞 利 商 ” (generalized 
Rayleigh quotient). 
如 何 确定 w E? 注意 到 式 (3.35) 的 分 子 和 分 母 都 是 关于 w 的 二 次 项 , B 因此 
seh, vg RBHS w 的 长 度 无 关 , 只 与 其 方向 有 关 . 不 失 一 般 性 , 令 A 
式 (3.35) 的 解 . 则 式 (3.35) 等 价 于 


min —w' S,w = (3.36) 


s.t. wT Suw =1. 
E 日 季子 法 参见 从 由 拉 格 朗 日 乘 子 法 , 上 式 等 价 于 


ww ai bot. com [] [] 0 Saw [] Sw , | een . 
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奇异 值 分 解 参 见 附录 


A.3. 


参见 习题 7.5. 
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其 中 入 是 拉 格 朗 日 乘 子 . 注意 到 Sw 的 方向 恒 为 po- u, 不 妨 令 


Sw = A(uo — Hi) ， (3.38) 


ARA ZK (3.37) BN : 
| | (3.39) 
考虑 到 数值 解 的 稳定 性 , 在 实践 中 通常 是 对 Sw 进行 奇异 值 分 解 , 即 S。=- 


UZVT, 这 里 D 是 一 个 实 对 角 矩 阵 , 其 对 角 线 上 的 元 素 是 S 的 奇异 值 , 然后 
再 由 SZ} = VEUT 得 到 S51. 


值得 一 提 的 是 , LDA 可 从 贝 叶 斯 决策 理论 的 角度 来 阐释 , 并 可 证 明 , 当 两 


w = Sa (Ho — m) - 


”类 数据 同 先 验 、 满 足 高 斯 分 布 且 协 方差 相等 时 , LDA 可 达到 最 优 分 类 . 


可 以 将 LDA 推广 到 多 分 类 任务 中 .. 假定 存在 N SR, 且 第 i 类 示例 数 为 
mi. RIIE EARR” 
S; = S, + Sw | | 
iin De — p) (ws -六 ， a) 


其 中 到 是 所 有 示例 的 均值 向 量 . 将 类 内 散 度 短 阵 S。 重 定义 为 每 个 类 别 的 散 度 
a5 RES A, 即 


Sv = 》 Su; ， (3.41) 
i=1 
其 中 
Sw = >> (w— mi) (x — pi)" (3.42) 
EAXi 
”由 式 (3.40)~(3.42) 可 得 

So = S+ — Sw 

= =D -Au 一 AT . (3.43) 


”显然 , 多 分 类 LDA 可 以 有 多 种 实现 方法 : 使 用 S, Su, Se 三 者 中 的 任何 两 
个 即 可 党 见 的 一 种 实现 是 采用 优化 目标 


a eee nog HOO 





3.5 ”多 分 类 学 习 


例如 上 一 节 最 后 介绍 的 
.LDA 推广 . 


yb 


类 器 ” (classifier). 


6 


关于 多 个 分 类 器 的 集成 ， 
参见 第 8 =. 


OvR 亦 称 OvA (One vs. 
All), 但 OvA 这 个 说 法 不 严 
格 , 因为 不 可 能 把 “所 有 
类 ”作为 反 类 . 


亦 可 根据 各 分 类 器 的 预 
测 置 信 度 等 信息 进行 集成 ， 
参见 8.4 节 . 
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tr (WTS,W) 
max 一 一 一 -一 人 , 
Ww tr(W'S,,W) ’ 


其 中 W e€ RdXtWW-D, tr(.) 表示 矩阵 的 迹 (trace). 式 (3.44) 可 通过 如 下 广义 特征 
值 问题 求解 : 


(3.44) 


SoW = ASW. (3.45) 


O W 的 闭 式 解 则 是 -1 的 N — 1 个 最 大 广义 特征 值 所 对 应 的 特征 向 量 组 成 的 
ER. 


车 将 W 视 为 一 个 投影 矩阵 , 则 多 分 类 LDA 将 样本 投影 到 N — 1 维 空间 ， 
N- 1 通常 远 小 于 数据 原 有 的 属性 数 . 于 是 , 可 通过 这 个 投影 来 减 小 样本 点 的 


维 数 , 且 投 影 过 程 中 使 用 了 类 别 信息 , 因此 LDA 也 常 被 视 为 一 种 经 典 的 监督 降 


3.5 多 分 类 学 习 


现实 中 党 遇 到 多 分 类 学 习 任 务 . 有 些 二 分 类 学 习 方法 可 直接 推广 到 多 分 类 ， 
但 在 更 多 情形 下 , 我 们 是 基于 一 些 基 本 策略 , 利用 二 分 类 学 习 器 来 解决 多 分 类 
问题 . | | 

不 失 一 般 性 , 考虑 NN 个 类 别 C1, Co,...,Cn, 多 分 类 学 习 的 基本 思路 是 
“ 拆 解 法 ”, 即将 多 分 类 任务 拆 为 若干 个 二 分 类 任务 求解 . 具体 来 说 , 先 对 问题 ， 
进行 拆 分 , 然后 为 拆 出 的 每 个 二 分 类 任务 训练 一 个 分 类 器 ; 在 测试 时 , 对 这 些 分 
类 器 的 预测 结果 进行 集成 以 获得 最 终 的 多 分 类 结果 . 这 里 的 关键 是 如 何 对 多 分 
类 任务 进行 拆 分 , 以 及 如 何 对 多 个 分 类 器 进行 集成 . 本 节 主 要 介绍 拆 分 策略 . 

最 经 典 的 拆 分 策略 有 三 种 : “一 对 一 ”(One vs. One, 简称 OvO)、“ 一 对 
HA?” (One vs. Rest, 简称 OvVR) 和 “多 对 多 ”(Many vs. Many, 简称 MvM). 


给 定数 据 集 D = {(21, y1), (£2, Y2), ---, (Em, Ym)}, yi E€ {C1, Co,..., CN}. 
OvO 将 这 NN 个 类 别 两 两 配对 , 从 而 产生 N(N 一 1)/2 个 二 分 类 任务 , 例如 OvO 
将 为 区 分 类 别 C; 和 C; 训练 一 个 分 类 器 , 该 分 类 器 把 D 中 的 C; 类 样 例 作 为 正 
例 , C; 类 样 例 作为 反例 . 在 测试 阶段 , 新 样本 将 同时 提交 给 所 有 分 类 器 , 于 是 我 
们 将 得 到 N(N 一 1)/2 个 分 类 结果 , 最 终结 果 可 通过 投票 产生 : 即 把 被 预测 得 最 
多 的 类 别 作为 最 终 分 类 结果 . 图 3.4 给 出 了 一 个 示意 图 . | 

OVR 则 是 每 次 将 一 个 类 的 样 例 作为 正 例 、 所 有 其 他 类 的 样 例 作 为 反例 来 
训练 N 个 分 类 器 . 在 测试 时 车 仅 有 一 个 分 类 器 预测 为 正 类 , 则 对 应 的 类 别 标记 
fENBADRER UE 3.4 Bae. 若 有 第 个 分 类 器 预测 为 正 类 , 则 通常 考虑 各 
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属于 类 CI 的 样 例 集会 


i , ka EC 

用 于 训练 的 

两 类 样 例 "RHA 
po TET 





EOE 最 终 
C3 


最 终 ATT 
结 SR = WG pt r = Eia: 
(Le | CEOE OE 





G) 


图 3.4 OvO 与 OvR 示意 图 


分 类 器 的 预测 置信 度 , 选择 置信 和 度 最 大 的 类 别 标记 作为 分 类 结果 
a 容易 看 出 , OvR 只 需 训练 N 个 分 类 器 , 而 OvO 需 训练 N(N 一 1)/2 个 分 
~ ”类 器 , 因此 , OvO 的 存储 开销 和 测试 时 间 开销 通常 比 OvR 更 大 . 但 在 训练 时 ， 
O OR 的 每 个 分 类 器 均 使 用 全 部 训练 样 例 , 而 OvO 的 每 个 分 类 器 仅 用 到 两 个 类 
的 样 例 , 因此 , 在 类 别 很 多 时 , OvO 的 训练 时 间 开销 通常 比 OvR 更 小 . 至 于 预 
测 性 能 , 则 取决 于 具体 的 数据 分 布 , 在 多 数 情形 下 两 者 差不多 . 


| MvM 是 每 次 将 若干 个 类 作为 正 类 , 若干 个 其 他 类 作为 反 类 . 显然 , OvO 和 

. OVR 是 MvM 的 特例 . MvM 的 正 、 反 类 构造 必须 有 特殊 的 设计 , 不 能 随意 选 

K. 这 里 我 们 介绍 一 种 最 稼 用 的 MvM 技术 : “ 纠 错 输出 码 ”(Error Correcting 
Output Codes, 简称 ECOC). | Ta 


ECOC [Dietterich and Bakiri, 1995] 是 将 编码 的 并 尽 
可 能 在 解码 过 程 中 具有 容错 HEE. ECOC 工作 过 程 主要 分 为 两 步 : 


o 编码: 对 N 个 类 别 做 M 次 划分 , 每 次 划分 将 一 部 分 类 别 划 为 正 类 , 一 部 
“分 划 为 反 类 , 从 而 形成 一 个 二 分 类 训练 集 ; 这 样 一 共产 生 M 个 训练 集 , 可 
训练 出 M 个 分 类 器 


。 解 码 : M 个 分 类 器 分 别 对 测试 样本 进行 预测 ， 这 些 预测 标记 组 成 一 个 编 
码 . 将 这 个 预测 编码 写 每 个 类 别 各 目的 编码 进行 比较 ， 返回 其 中 距离 最 小 


的 类 别 作为 量 络 预测 续 果 ， 
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类 别 划 分 通过 “编码 矩阵 ”(coding matrix) 指 定 . 编码 矩阵 有 多 种 形式 ， 
常见 的 主要 有 二 元 码 [Dietterich and Bakiri, 1995] 和 三 元 码 [Allwein et al., 
2000]. 前 者 将 每 个 类 别 分 别 指定 为 正 类 和 反 类 , 后 者 在 正 、 反 类 之 外 , 还 可 指 


定 “ 停 用 类 ”. 图 3.5 给 出 了 一 个 示意 图 , 在 图 3.5(a) 中 , 分 类 器 户 将 C1 类 和 


Cs 类 的 样 例 作为 正 例 , C2 类 和 Cy 类 的 样 例 作为 反例 ; 在 图 3.5(b) 中 , 分 类 器 
及 将 C1 类 和 Ce 类 的 样 例 作为 正 例 , Cs 类 的 样 例 作为 反例 . 在 解码 阶段 , 各 分 
类 器 的 预测 结果 联合 起 来 形成 了 测试 示例 的 编码 , 该 编码 与 各 类 所 对 应 的 编码 
进行 比较 , 将 距离 最 小 的 编码 所 对 应 的 类 别 作为 预测 结果 . 例如 在 图 3.5(a) 中 ， 
若 基于 欧 氏 距离 , 预测 结果 将 是 O. 


ih hh f fe fr ze T 
a AE + 志 





C, > RIRE |- EEH 4 
C2 > : E. EN 一 2 2 


pois 1 -1 a Be 5 2v5 
oe -1 Bi — 





th 


(a) 二 元 ECOC 码 (b) 三 元 ECOC 码 





3.5 ECOC 编码 示意 图 ，“+1”、“-1” 分 别 表示 学 习 器 fi 将 该 类 样本 作为 
正 、 反 例 ; 三 元 码 中 “0” 表 示 方 不 使 用 该 类 样本 


为 什么 称 为 “ 纠 错 输 出 码 ” 呢 ? 这 是 因为 在 测试 阶段 , ECOC 编码 对 分 类 
器 的 错误 有 一 定 的 容忍 和 修正 能 力 . 例如 图 3.5(a) 中 对 测试 示例 的 正确 预测 编 
码 是 (—1, +1, +1, —1, +1), 假设 在 预测 时 某 个 分 类 器 出 错 了 , 例如 fo 出 错 从 而 
导致 了 错误 编码 (一 1, 一 1, +1, 一 1, 十 1), 但 基于 这 个 编码 仍 能 产生 正确 的 最 终 分 
类 结果 C3. 一 般 来 说 , 对 同一 个 学 习 任务 , ECOC 编码 越 长 , 纠 错 能 力 越 强 . 然 
而 , 编码 越 长 , 意味 着 所 需 训练 的 分 类 器 越 多 , 计算 、 存 储 开 销 都 会 增 大 ; 另 一 
方面 , 对 有 PRA Fal BL, 可 能 的 组 合 数目 是 有 限 的 , 码 长 超过 一 定 范围 后 就 失去 了 
意义 . 

对 同等 长 度 的 编码 , 理论 上 来 说 , 任 意 两 个 类 别 之 间 的 编码 距离 越 远 , 则 纠 

能 力 越 强 . 因此 , 在 码 长 较 小 时 可 根据 这 个 原则 计算 出 理论 最 优 编码 . 然而 ， 
ae aad 效 地 确定 最 优 编码 , 事实 上 这 是 NP 难 问题 . 不 过 , 通常 
我 们 并 不 需 获 得 理论 最 优 编码 , 因为 非 最 优 编码 在 实践 中 往往 已 能 产生 足够 好 


的 分 类 器 . 另 一 方面 , 并 不 AART HI EE W FERREA, 分 类 性 能 就 越 好 , 因为 机 器 
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对 OvR、MvM 来 说 , 由 
于 对 每 个 类 进行 了 相同 的 
处 理 , 其 拆 解 出 的 二 分 类 
任务 中 类 别 不 平衡 的 影响 
会 相互 抵消 , 因此 通常 不 
需 专 门 处 理 . 


无 偏 采样 意味 着 真实 样 
本 总 体 的 类 别 比 例 在 训练 
”集中 得 以 保持 . 


第 3 章 线性 模型 


学 习 问 题 涉及 很 多 因素 , 例如 将 多 个 类 拆 解 为 两 个 “类 别 子 集 ”, 不 同 拆 解 方 
式 所 形成 的 两 个 类 别 子 集 的 区 分 难度 往往 不 同 , 即 其 导致 的 二 分 类 问题 的 难度 
不 同 ; 于 是 , 一 个 理论 纠 错 性 质 很 好 、 但 导致 的 二 分 类 问题 较 难 的 编码 , 与 为 一 
个 理论 纠 错 性 质 差 一 些 、 但 导致 的 二 分 类 问题 较 简单 的 编码 , 最 终 产生 的 模型 
PEREDUR MIIR HE Di. 


3.6 类 别 不 平衡 问题 


前 面 介绍 的 分 类 学 习 方法 都 有 一 个 共同 的 基本 假设 , 即 不 同类 别 的 训练 样 
例 数目 相当 . 如 果 不 同类 别 的 训练 样 例 数目 稍 有 差别 , 通常 影响 不 大 , 但 若 差别 
很 大 , 则 会 对 学 习 过 程 造成 困扰 . 例如 有 998 个 反例 , 但 正 例 只 有 2 个 , 那么 学 
习 方法 只 需 返 回 一 个 永远 将 新 样本 预测 为 反例 的 学 习 器 , 就 能 达到 99.8% 的 精 
BE; 然而 这 样 的 学 习 器 往往 没有 价值 , 因为 它 不 能 预测 出 任何 正 例 . 


类 别 不 平衡 (class-imbalance) 就 是 指 分 类 任务 中 不 同类 别 的 训练 样 例 数 
目 差别 很 大 的 情况 ， 不 失 一 般 性 , 本 节 假 定 正 类 样 例 较 少 , 反 类 样 例 较 多 . 
在 现实 的 分 类 学 习 任 务 中 , 我 们 经 常会 遇 到 类 别 不 平衡 , 例如 在 通过 拆 分 
法 解决 多 分 类 问题 时 , 即使 原始 问题 中 不 同类 别 的 训练 样 例 数目 相当 , 在 使 
用 OvR、 MvM 策 略 后 产生 的 二 分 类 任务 仍 可 能 出 现 类 别 不 平衡 现象 因此 有 
必要 了 解 类 别 不 平衡 性 处 理 的 基本 方法 . 


从 线性 分 类 器 的 角度 讨论 容易 理解 , 在 我 们 用 y = wTz + 对 新 样本 x 
进行 分 类 时 , 事实 上 是 在 用 预测 出 的 y 值 与 一 个 阐 值 进行 比较 , 例如 通常 在 
y > 0.5 时 判别 为 正 例 , 否则 为 反例 . y 实际 上 表达 了 正 例 的 可 能 性 , 几率 5 
则 反映 了 正 例 可 能 性 与 反例 可 能 性 之 比值 , 阐 值 设置 为 0.5 谷 表 明 分 类 器 认为 
真实 正 、 反 例 可 能 性 相同 , 即 分 类 器 决策 规则 为 


#31 则 预测 为 正 例 ， | (3.46) 


然而 , 当 训练 集中 正 、 反例 的 数目 不 同时 , 4 A 表示 正 例 数目 ， m 表示 
反例 数目 , 则 观测 几率 是 ,由 于 我 们 通常 假设 训练 集 是 真实 样本 总 体 的 无 偏 
采样 , 因此 观测 几率 就 代表 了 真实 几率 . TE, 只 要 分 类 器 的 预测 几率 高 于 观测 


几率 就 应 判定 为 正 例 , ED 





. mt : i ' 
车 -二 > 二- 则 预测 为 正 例 . | (3.47) 
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3.7 ”阅读 材料 , ER 


但 是 , 我 们 的 分 类 器 是 基于 式 (3.46) 进 行 决策 , 因此 , 需 对 其 预测 值 进行 调 
整 ， eer oe 46) RIN, VOTE EE MATES 21). BEAM BIX— HIRED, 
mE ; 


/ cans 


m 
er iat nar 
ney HPM” (rebal- 这 就 是 类 别 不 平衡 学 习 的 一 个 基本 策略 -一 “再 缩放 ”(rescaling)， 
再 缩放 的 思想 虽 人 简单 , 但 实际 操作 却 并 不 平凡 , 主要 因为 “训练 集 是 真实 
样本 总 体 的 无 偏 采 样 ” 这 个 假设 往往 并 不 成 立 , 也 就 是 说 , 我 们 未 必 能 有 效 
地 基于 训练 集 观测 几率 来 推断 出 真实 几率 . 现 有 技术 大 体 上 有 三 类 做 法 : 第 
一 类 是 直接 对 训练 集 里 的 反 类 样 例 进 行 “ 从 采样 ”(undersampling), 即 去 除 
doen 这 打样 ” 些 反 例 使 得 正 、 反 例 数目 接近 , 然后 再 进行 学 习 ; 第 二 类 是 对 训练 集 里 的 
亦 称 “ 上 采样 ” (upsam-” 正 类 样 例 进行 “过 采样 ”(oversampling), 即 增加 一 些 正 例 使 得 正 、 反 例 数 目 
H 接近 , 然后 再 进行 学 习 ; 第 三 类 则 是 直接 基于 原始 训练 集 进 行 学 习 , 但 在 用 
训练 好 的 分 类 器 进行 预测 时 , 将 式 (3.48) 幅 入 到 其 决策 过 程 中 , KA “RB 
动 ”(threshold-moving). 
欠 采 样 法 的 时 间 开 销 通 常 远 小 于 过 采样 法 , 因为 前 者 丢弃 了 很 多 反例 , 使 
得 分 类 器 训练 集 远 小 于 初始 训练 集 , 而 过 采样 法 增加 了 很 多 正 例 , 其 训练 集 
大 于 初始 训练 集 ， 需 注意 的 是 , 过 采样 法 不 能 简单 地 对 初始 正 例 样本 进行 重 . 
复 采 样 , 否则 会 招致 严重 的 过 拟 合 ; 过 采样 法 的 代表 性 算法 SMOTE [Chawla 
et al., 2002] 是 通过 对 训练 集 里 的 正 例 进行 插值 来 产生 额外 的 正 例 . 另 一 方面 ， 
欠 采 样 法 车 随机 丢弃 反例 , 可 能 丢失 一 些 重要 信息 ; 从 采样 法 的 代表 性 算法 
EasyEnsemble [Liu et al., 2009] 则 是 利用 集成 学 习 机 制 , 将 反例 划分 为 若干 个 
集合 供 不 同 学 习 器 使 用 , 这 样 对 每 个 学 习 器 来 看 都 进行 了 欠 采 样 , 但 在 全 局 来 
看 却 不 会 丢失 重要 信息 . 


值得 一 提 的 是 ，“ 再 缩放 ”也 是 “ ere 习 ”(cost-sensitive learn- 


代价 敏感 学 习 研 究 非 ， > Ln ily Jae MS] h + 一 sp | 
AR eure) ing) 的 基础 . 在 代价 敏感 学 习 中 将 式 (3.48) 中 的 m- /mt 用 costt /cost~ 代替 即 


23.4%, 可 , 其 中 costt 是 将 正 例 误 分 为 反例 的 代价 , cost” 是 将 反例 误 分 为 正 例 的 代价 . 


(3.48) 


3.7 阅读 材料 


“RKN” (sparse representation) 近 年 来 很 受 关 注 , 但 即便 对 多 元 线性 
回归 这 样 简单 的 模型 , 获得 具有 最 优 “稀疏 性 ”(sparsity) 的 解 也 并 不 容易 . Fi 
玻 性 问题 本 质 上 对 应 了 Lo 范 数 的 优化 , 这 在 通常 条 件 下 是 NP 难 问题 . LASSO 
参见 第 11 章 ， (Tibshirani, 1996) iit Ly eS esa Lo 范 数 , eS A A A) ERA. 
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可 以 证 明 , OvO 和 OvR 都 是 ECOC 的 特例 [Allwein et al., 2000]. 人 们 以 
往 希 望 设计 通用 的 编码 法 , [Crammer and Singer, 2002] 提出 要 考虑 问题 本 身 
的 特点 , 设计 “问题 依赖 ”的 编码 法 , 并 证 明 寻 找 最 优 的 离散 编码 矩阵 是 一 个 
NP 完全 问题 . 此 后 , 有 多 种 问题 依赖 的 ECOC 编码 法 被 提出 , 通常 是 通过 找 
出 具有 代表 性 的 二 分 类 问题 来 进行 编码 [Pujol et al., 2006, 2008]. [Escalera et 
al., 2010] 开发 了 一 个 开源 ECOC È. | 


MvM 除了 ECOC 还 可 有 其 他 实现 方式 , 例如 DAG (Directed Acyclic 


Graph) 拆 分 法 [Platt et al., 2000] 将 类 别 划 分 表达 成 树 形 结构 , 每 个 结 点 对 应 
”于 一 个 二 类 分 类 器 . 还 有 一 些 工作 是 致力 于 直接 求解 多 分 类 问题 , 例如 多 类 支 


持 向 量 机 方面 的 一 些 研究 [Crammer and Singer, 2001; Lee et al., 2004]. 


代价 敏感 学 习 中 研究 得 最 多 的 是 基于 类 别 的 “ 误 分 类 代 
价 ”(misclassification cost), 代价 矩阵 如 表 2.2 所 示 ; 本 书 在 提 及 代价 敏感 
学 习 时 , 默认 指 此 类 情形 . 已 经 证 明 , 对 二 分 类 任务 可 通过 “再 缩放 ”获得 理论 
最 优 解 [Elkan, 2001], 但 对 多 分 类 任务 , 仅 在 某 些 特殊 情形 下 存在 闭 式 解 [Zhou 
and Liu, 2006a]. 非 均 等 代价 和 类 别 不 平衡 性 虽然 都 可 借助 “再 缩放 ”技术 ， 
但 两 者 本 质 不 同 [Zhou and Liu, 2006b]. 需 注意 的 是 , 类 别 不 平衡 学 习 中 通常 


是 较 小 类 的 代价 更 高 , 否则 无 需 进行 特殊 处 理 . 


多 分 类 学 习 中 虽然 有 多 个 类 别 , 但 每 个 样本 仅 属于 一 个 类 别 . 如 果 希 望 为 


“一 个 样本 同时 预测 出 多 个 类 别 标记 , 例如 一 幅 图 像 可 同时 标注 为 “蓝天 ”、 


“白云 ”、“ 羊 群 ”、“ 自 然 场景 ”, 这 样 的 任务 就 不 再 是 多 分 类 学 习 , 而 是 


“ “多 标记 学 习 ” (multi-label learning), 这 是 机 器 学 习 中 近年 来 相当 活跃 的 一 个 


研究 领域 . 对 多 标记 学 习 感 兴 < 趣 的 读者 可 参阅 [Zhang and Zhou, 2014]. 
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习题 


西瓜 数据 集 3.0a 见 p.89 3.3 
的 表 4.5. í 


http:/ /archive.ics.uci.edu/ ml/. 


线性 可 分 是 指 存在 线性 3.6 
超 平面 能 将 不 同类 的 样本 
点 分 开 . 参见 6.3 F. 


3.7 


3.8* 


3.9 


3.10* 
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试 析 在 什么 情形 下 式 (3.2) 中 不 必 考 虑 偏 置 项 b. 


EW, 对 于 参数 w, 对 率 回归 的 目标 函数 (3. 18) 是 非 号 的， 但 其 对 数 
似 然 函 数 (3. 27) EH. 


编程 实现 对 率 回 归 , 并 给 出 西瓜 数据 集 3.00 EWER. 


选择 两 个 UCT 数据 集 , 比较 10 折 交 又 验 证 法 和 留 一 法 所 估计 出 的 对 
率 回归 的 错误 率 . 


编程 实现 线性 判别 分 析 , 并 给 出 西瓜 数据 集 3.00 上 的 结果 . 


线性 判别 分 析 仅 在 线性 可 分 数据 上 能 获得 理想 结果 , AB 
方法 , 使 其 能 较 好 地 用 于 非 线性 可 分 数据 


令 码 长 为 9 类 别 数 为 4, 试 给 出 海 明 距离 意义 下 理论 最 优 的 ECOC 
二 元 人 码 并 证 明之 . 


ECOC 编码 能 起 到 理想 纠 错 作用 的 重要 条 件 是 : 在 每 一 位 编码 上 出 错 
的 概率 相当 且 独 立 . 试 析 多 分 类 任务 经 ECOC 编码 后 产生 的 二 类 分 
类 器 满足 该 条 件 的 可 能 性 及 由 此 产生 的 影响 . 


使 用 OvR 和 MvM 将 多 分 类 任务 分 解 为 二 分 类 任务 求解 时 , 试 述 为 何 
无 需 专 门 针对 类 别 不 平衡 性 进行 处 理 . 


试 推导 出 多 分 类 代价 敏感 学 习 ( 仅 考虑 基于 类 别 的 误 分 类 代价 ) 使 用 


“ “再 缩放 ”能 获得 理论 最 优 解 的 条 件 . 
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小 故事 : 关于 “最 小 二 乘法 ” 
1801 年 , 意大利 天 文学 家 皮 亚 齐 
发 现 了 1 号 小 行星 “ 合 神 星 ”, PER 
BIM T 40 天 后 , 因 谷 神 星 转 至 太阳 
的 背后 , 皮 亚 齐 失 去 了 谷 神 星 的 位 置 . 
许多 天 文学 家 试图 重新 找到 谷 神 星 , E (1993 年 版 德国 10 马克 纸币 上 的 高 斯 像 ) 
都 徒劳 无 获 . 这 引起 了 伟大 的 德国 数 
学 家 高 斯 (1777 一 1855) 的 注意 , 他 发 明了 一 种 方法 ， 根据 皮 亚 齐 的 观测 数据 计 
算出 了 谷 神 星 的 轨道 , 后 来 德国 天 文学 家 奥 伯 斯 在 高 斯 预言 的 时 间 和 星空 领域 
重新 找到 了 谷 神 星 . 1809 年 , 高 斯 在 他 的 著作 《天 体 运 动 论 》 中 发 表 了 这 种 方 
法 , 即 最 小 二 乘法 . 
1805 年 , 在 椭圆 积分 、 数 论 和 几何 方面 都 有 重大 贡献 的 法 国 大 数学 家 勒 让 
德 (1752—1833) 发 表 了 《计算 彗星 轨道 的 新 方法 》, 其 附 系 中 描述 了 最 小 二 乘 
eee TE OF 勒 让 德 是 法 国 18 一 19 世纪 数学 界 的 三 驾 马 车 之 一 ,早已 是 法 国 科学 院 院 
相同 , 时 称 “SL” . +. 但 勒 让 德 的 书 中 没有 涉及 最 小 二 乘法 的 误差 分 析 , 高 斯 1809 年 的 著作 中 包 
”” 插 了 这 方面 的 内 容 , 这 对 最 小 二 乘法 用 于 数理 统计 、 乃 至 今天 的 机 器 学 习 有 极 
为 重要 的 意义 . 由 于 高 斯 的 这 一 重大 贡献 , 以 及 他 声称 自己 1799 年 就 已 开始 使 
用 这 个 方法 , 因此 很 多 人 将 最 小 二 乘法 的 发 明 优 先 权 归 之 为 高 斯 ， 当时 这 两 位 
大 数学 家 发 生 了 著名 的 优先 权 之 争 ,此 后 有 许多 数学 史家 专门 进行 研究 , 但 至 
今 也 没 弄 清 到 底 是 谁 最 先 发 明 了 最 小 二 乘法 . 


GD9674175N9 
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第 4 章 决策 树 


4.1 基本 流程 


上 pean cag ”决策 树 (decision tree) 是 一 类 常见 的 机 器 学 习 方 法 , 以 二 分 类 任务 为 例 , R 

树 ” 有 时 是 指 学 习 方 法 ， 们 希望 从 给 定 训 练 数据 集 学 得 一 个 模型 用 以 对 新 示例 进行 分 类 , 这 个 把 样本 

Pe ha! 分 类 的 任务 , 可 看 作对 “当前 样本 属于 正 类 吗 ?” 这 个 问题 的 “决策 ”或 “ 判 
定 ” 过 程 . 顾名思义 , 决策 树 是 基于 树 结构 来 进行 决策 的 , 这 恰 是 人 类 在 面临 决 
策 问 题 时 一 种 很 自然 的 处 理 机 制 . 例如 , 我 们 要 对 “这 是 好 瓜 吗 ?” 这 样 的 问题 
进行 决策 时 , 通常 会 进行 一 系列 的 判断 或 “ 子 决策 ”: 我 们 先 看 “ 它 是 什么 颜 
色 ?”, 如 果 是 “青绿 色 ”, 则 我 们 再 看 “ 它 的 根 蒂 是 什么 形态 ?”, WERE “Re 
缩 ”, 我 们 再 判断 “ 它 融 起 来 是 什么 声音 ?”, 最 后 , 我 们 得 出 最 终 决策 : 这 是 个 
好 瓜 . 这 个 决策 过 程 如 图 4.1 所 示 . 





4.1 西瓜 问题 的 一 棵 决策 树 


显然 , 决策 过 程 的 最 终结 论 对 应 了 我 们 所 希望 的 判定 结果 , 例如 “是 ”或 
“不 是 ”好 瓜 ; 决策 过 程 中 提出 的 每 个 判定 问题 都 是 对 某 个 属性 的 “测试 ”， 
例如 “色泽 =?”“ 根 蒂 =?”; 每 个 测试 的 结果 或 是 导出 最 终结 论 , 或 是 导出 
进一步 的 判定 问题 , 其 考虑 范围 是 在 上 次 决策 结果 的 限定 范围 之 内 , 例如 若 在 
“色泽 = 青绿 ”之 后 再 判断 “ 根 蒂 =?”, 则 仅 在 考虑 青绿 色 瓜 的 根 幕 . 


一 般 的 , 一 棵 决策 树 包含 一 个 根 结 点 、 若 干 个 内 部 结 点 和 若干 个 叶 结 点 ; 
ww ai bbt.com DUODODODOD 
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”递归 返回 , 情形 (1). 


递归 返回 , 情形 (2). 


我 们 将 在 下 一 节 讨 论 如 


何 获得 最 优 划 分 属性 . 


递归 返回 , 情形 (3). 


从 A 中 去 掉 ax. 


第 4 章 RR 树 


” 叶 结 点 对 应 于 决策 结果 , 其 他 每 个 结 点 则 对 应 于 一 个 属性 测试 ; 每 个 结 点 包含 


的 样本 集合 根据 属性 测试 的 结果 被 划分 到 子 结 点 中 ; 根 结 点 包含 样本 全 集 . 从 
根 结 点 到 每 个 叶 结 点 的 路 径 对 应 了 一 个 判定 测试 序列 . 决策 树 学 习 的 目的 是 为 
了 产生 一 棵 泛 化 能 力 强 , 即 处 理 未 见 示例 能 力 强 的 决策 树 , 其 基本 流程 遵循 简 
单 旦 直观 的 “分 而 治之 ”(divide-and-conquer) 策 略 , 如 图 4.2 Bra. 


输入 : 训练 集 D = {(a1, y1), (22, y2),---, (Lm, Ym))}; 
属性 集 A = {a1, a2,..., aa}. a 
过 程 : 函数 TreeGenerate(D, A) 
1: 生成 结 点 node; 
2: if D 中 样本 全 属于 同一 类 别 C then 
3: node 标记 为 C 类 叶 结 点 ; return 
4: end if 
5: if A=Ø OR.D 中 样本 在 A 上 取 值 相同 then 
6: ”将 node 标记 为 叶 结 点 , 其 类 别 标记 为 D 中 样本 数 最 多 的 类 ; return © 
7: end if | 
8: 从 A 中 选择 最 优 划 分 属性 ax; 
”9: for a, 的 每 一 个 值 a? do 
10: A node 生成 一 个 分 文 ; S Dy 表示 D 中 在 a 上 取 值 为 a? 的 样本 子 集 ; 
11: if D, A then 
12: 将 分 支 结 点 标记 为 me 点 , 其 类 别 标记 为 D 中 样本 最 多 的 类 ; return 


13: else 


14: 以 TreeGenerate(D., A\ lapaa A 
15: end if 
16: end for _ 


输出 : 以 node 为 根 结 点 的 一 棵 决策 树 
”图 4.2 决策 树 学 习 基本 算法 


显然 , 决策 树 的 生成 是 一 个 递归 过 程 . 在 决策 树 基本 算法 中 , 有 三 种 情形 会 


”导致 递归 返回 : (1) 当前 络 氮 包含 的 样本 全 属于 同一 类 别 , 无 需 划 分 ; (2) 当前 
属性 集 为 空 , 或 是 所 有 样本 在 所 有 属性 上 取 值 相同 , 无 法 划分 ; (3) 当前 结 点 包 


含 的 样本 集合 为 空 , 不 能 划分 . 


在 第 (2) 种 情形 下 , 我 们 把 当前 结 点 标记 为 叶 结 点 , 并 将 其 类 别 设 定 为 该 结 
点 所 含 样本 最 多 的 类 别 ; 在 第 (3) 种 情形 下 , 同样 把 当前 结 点 标记 为 叶 结 点 , 但 
将 其 类 别 设 定 为 其 父 结 点 所 含 样本 最 多 的 类 别 . 注意 这 两 种 情形 的 处 理 实质 不 


” 同 : 情形 (2) 是 在 利用 当前 结 点 的 后 验 分 布 , 而 情形 (3) 则 是 把 父 结 点 的 样本 分 布 


作为 当前 结 点 的 先 验 分 布 . 


Gees becom noooongagn 





4.2 划分 选择 


计算 信息 粒 时 约定 : 车 
p=0, 则 plogzp=0. 


Ent(D) 的 最 小 值 为 O, 
最 大 值 为 logs |V|. 


ID3 名 字 中 的 ID & It- 


erative Dichotomiser (迭代 _ 


二 分 器 ) 的 简称 . 
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4.2 划分 选择 


由 算法 4.2 可 看 出 , 决策 树 学 习 的 关键 是 第 8 行 , 即 如 何 选 择 最 优 划 分 属 
PE. 一 般 而 言 , 随 着 划分 过 程 不 断 进行 , 我 们 希望 决策 树 的 分 支 结 点 所 包含 的 样 
本 尽 可 能 属于 同一 类 别 , 即 结 点 的 “纯度 ”(purity) 越 来 越 高 . 


4.2.1 信息 增益 


“45 AW” (information entropy) 是 度量 样本 集合 纯度 最 常用 的 一 种 指标 . 
假定 当前 样本 集合 D 中 第 类 样本 所 占 的 比例 为 pp (k= 1,2,..., V|), WD 


的 信息 业 定 义 为 


Ent(D) = — X ` p logy px . (4.1) 
: k=1 


Ent(D) 的 值 越 小 , 则 D 的 纯度 越 高 . 
假定 离散 属性 有 OV 个 可 能 的 取 值 {a1, a?,... aV}, 车 使 用 a 来 对 样本 集 
D 进行 划分 , 则 会 产生 AAA, 其 中 第 v 个 分 支 结 点 包含 了 D 中 所 有 在 
属性 a 上 取 值 为 a? 的 样本 , 记 为 DY. 我 们 可 根据 式 (4.1) 计算 出 De A SA, 
再 考虑 到 不 同 的 分 支 结 点 所 包含 的 样本 数 不 同 , 给 分 支 结 点 赋予 权重 |D?|/|D|， 
即 样本 数 越 多 的 分 支 结 点 的 影响 越 大 , 于 是 可 计算 出 用 属性 对 样本 集 D 进行 


”划分 所 获得 的 “信息 增益 ”(information gain) 


Gain(D, a) = Ent(D) — ye BE nt(D?) . (4.2) 


一 般 而 言 , 信息 增益 越 大 , 则 意味 着 使 用 属性 来 进行 划分 所 获得 的 “ 纯 
度 提 升 ” 越 大 . 因此 , 我 们 可 用 信息 增益 来 进行 决策 树 的 划分 属性 选择 , 即 在 图 
4.2 算法 第 8 行 选择 属性 a. = arg si Gain(D,a). 著名 的 ID3 决策 树 学 习 算 

a€ 

法 [Quinlan, 1986] 就 是 以 信息 增益 为 准则 来 选择 划分 属性 . 

以 表 4.1 中 的 西瓜 数据 集 2.0 为 例 , 该 数据 集 包含 17 个 训练 样 例 , 用 以 学 
习 一 棵 能 预测 没 谢 开 的 是 不 是 好 瓜 的 决策 树 . TA, V| = 2. 在 决策 树 学 习 开 
始 时 , 根 结 点 包含 D 中 的 所 有 样 例 , 其 中 正 例 占 pi = 3, 反例 占 pa = 3. 于 
是 , 根据 式 (4.1) 可 计算 出 根 结 点 的 信息 炉 为 


8 8 9 9 
Ent(D) = —) | pr logy pe = — (a7 1082 77 + 77 082 7) = Ta 
wwwk 示 bbt. com [DUODODOTDDD 
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表 4.1 西瓜 数据 集 2.0 


WE 。 纹理 A 触感 
青绿 a | ”清晰 e 。 硬 滑 
乌黑 ee A 清晰 e 硬 滑 
Be keep m ”清晰 UR RE 
青绿 me ol 清晰 e 。 “ 硬 滑 
RA wee mua ”清晰 e 硬 滑 
青绿 We vo ”清晰 稍 凹 软 粘 
浊 响 “ 稍 糊 稍 凹 软 粘 
乌黑 Re toy 清晰 稍 凹 硬 滑 
乌黑 Re Ts 稍 糊 稍 凹 Be 
青绿 “硬挺 清脆 清晰 ”平坦 eH 
浅 白 “硬挺 清脆 模糊 ”平坦 MA 
浊 响 模糊 平坦 软 烙 


dia 
R 
$ 
Ri 
aii 


FR olan oan A ANH 
Aira 
7E 
> 
$ 


| 
N 
pers 
Ub 
i 
m 


13 ”青绿 Me me 稍 糊 me WR 
14 BÉ ME ya Pa uE 硬 滑 
15 Se pe ma 清晰 稍 凹 软 粘 
16 BRA. BA mph 模糊 FE 硬 滑 


D OX oy oY D o oy oH oy) Rar Bin BeBe a] SEY 


17 ee 沉 间 AAO A eA 


然后 , 我 们 要 计算 出 当前 属性 集合 { 色 泽 , 根 蒂 , BUS, 纹理 , 脐 部 , 触感 1 


ee ee ee 它 有 3 个 可 能 的 取 值 : {青绿 , 乌 


黑 , RE}. 若 使 用 该 属性 对 D 进行 划分 , 则 可 得 到 3 个 子 集 , 分 别 记 为: D! ( 色 
WM), D? (色泽 = SN), D (HWE. 

FR D1 包含 编号 为 {1, 4, 6, 10, 13, 17} 的 6 个 样 例 , 其 中 正 例 占 pi = 3, 
反例 占 po = 3; D? 包含 编号 为 {2, 3, 7, 8, 9, 15} 的 6 个 样 例 , 其 中 正 、 反 例 分 
别 占 pi = $, pz = $; D3 包含 编号 为 {5, 11, 12, 14, 16} 的 5 个 样 例 , 其 中 正 、 
反例 分 别 占 pi = $, pa = $. 根据 式 (4.1) 可 计算 出 用 “色泽 ”划分 之 后 所 获得 
的 3 个 分 支 结 点 的 信息 糯 为 | 
mG 


Ent(D!) = — (ion ee logs 3). 1.000 , 


ae 2 
Ea) = - ($o TRE 6 t 6 — logs =) = 0.918 , 


1 1 4 4 | 
Ent(D) = - (8 logs = 5 =P 5 logs =) = 0.722 , 


于 是 , 根据 式 (4.) 可 计算 出 属性 “色泽 ”的 信息 增益 为 


com nnnnnnn 
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3 
Gain(D, 色泽 ) = Ent(D) 一 —— Fnt(D”) 
— 0.998 — { & x 1,000 + ©. % 0.918 + 2 x 0.722 | 
a 17 17 17 
= 0.109. 


类 似 的 , 我 们 可 计算 出 其 他 属性 的 信息 增益 : 
Gain(D, #8#7) = 0.143; Gain(D, m=) = 0.141; 
Gain(D, 纹理) = 0.381; Gain(D, 脐 部 ) = 0.289; 
Gain(D, 触感 ) = 0.006. | 
显然 , 属性 “纹理 ”的 信息 增益 最 大 , 于 是 它 被 选 为 划分 属性 . 图 4.3 给 
了 基于 “纹理 ”对 根 结 点 进行 划分 的 结果 , 各 分 支 结 点 所 包含 的 样 例子 集 显示 
在 结 点 中 . 





| {1, 2, 3, 4, 5, 6, 8, 10, 15} 





{7, 9, 13, 14, 17}] Í {11, 12, 16} 
4.3 基于 “纹理 ”属性 对 根 结 点 划分 


然后 , 决策 树 学 习 算法 将 对 每 个 分 支 结 氮 做 进一步 划分 . 以 图 4.3 中 第 一 
个 分 支 结 点 (“ 纹 理 = 清晰 ”) 为 例 , 该 结 点 包含 的 样 例 集合 D! 中 有 编号 为 {1, 
ee 2, 3, 4, 5, 6, 8, 10, 15} 的 9 个 样 例 , 可 用 属性 集合 为 { 色 泽 , 根 带 , 敲 声 , 脐 部 ， 
加 分 生生 TEARS MR) 基于 D1 计算 出 各 属性 的 信息 增益 : 
Gain(D!, 色泽 ) = 0.043; Gain(D1, 根 蒂 ) = 0.458; 
Gain(D!, FX) = 0.331; Gain(D!, 脐 部 ) = 0.458; 
Gain(D’, 触感 ) = 0.458. 
RAE? RR, “触感 ”3 个 属性 均 取得 了 最 大 的 信息 增益 , 可 任 
选 其 中 之 一 作为 划分 属性 . 类 似 的 , 对 每 个 分 支 结 点 进行 上 述 操作 , 最 终 得 到 的 
决策 树 如 图 4.4 所 示 . 
4.2.2 增益 率 


在 上 面 的 介绍 中 , 我 们 有 意 忽 略 了 表 4.1 中 的 “编号 ”这 一 列 . TE “Si 
| ww ai bot.com 111 1 0011 
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纹理 =? 
清晰 ABBA 模糊 
根 蒂 =? | 触感 =? | ”《 坏 瓜 》 
Be 2G Fi BE AR HE O 硬 滑 $k Hh 
ED (Ser i> ED ED 
x 浅 白 
E 《好 瓜 》 
硬 滑 $k Hb 


4.4 在 西瓜 数据 集 2.0 上 基于 信息 增益 生成 的 决策 树 


号 ”也 作为 一 个 候选 划分 属性 , 则 根据 式 (4.2) 可 计算 出 它 的 信息 增益 为 0.998， 
远大 于 其 他 候选 划分 属性 . 这 很 容易 理解 : “编号 ”将 产生 17 个 分 支 , 每 个 分 
支 结 点 仅 包 含 一 个 样本 , 这 些 分 支 结 点 的 纯度 已 达 最 大 . 然而 , 这 样 的 决策 树 显 
然 不 具有 泛 化 能 力 , 无 法 对 新 样本 进行 有 效 预测 . 

实际 上 , 信息 增益 准则 对 可 取 值 数目 较 多 的 属性 有 所 偏好 , 为 减少 这 种 
偏好 可 能 市 来 的 不 利 影响 , 著名 的 C4.5 RASA [Quinlan, 1993] 不 直接 使 
用 信 息 增益 ， 而 是 使 用 “增益 率 ”(gain ratio) 来 选择 最 优 划分 属性 采用 与 
式 (4. 2) 相 同 的 PSE, 增益 率 定义 为 | 


Gain_ratio(D,a) = an 


“Way? (4.3) | 
其 中 
IV(a) = -> 出 logs a | (4.4) 


称 为 属 性 a 的 “固有 f” aS value) Oainlan: 1993]. 属性 a 的 可 能 
取 值 数目 越 多 ( 即 V RAK), 则 IV(a) 的 值 通 常会 越 大 . 例如 , 对 表 4.1 的 西 
瓜 数据 集 2.0, 有 IV( 触 感 ) = 0.874 (V = 2), IV( 色 泽 ) = 1.580 (V = 3), 
IV( 编 号 ) = 4.088 (V = 17). 
需 注意 的 是， 增益 率 准则 对 可 取 值 数目 较 少 的 属性 有 所 偏好 ， 因此 , C4.5 
算法 并 不 是 直接 选择 增益 率 最 大 的 候选 划分 属性 , 而 是 使 用 了 一 个 局 发 式 
ww ai bbt. com PO00000 





4.3 BRANE 


CART 是 Classification 
and Regression Tree 的 简 


树 学 习 算 法 , 分 类 和 回归 


任务 都 可 用 . 


关于 过 拟 合 ,参见 2.1 节 
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[Quinlan, 1993]: 先 从 候选 划分 属 性 中 找 出 信 息 增益 高 于 平均 水 平 的 属性 ， 再 从 


中 选择 增益 率 最 高 的 . 


4.2.3 基尼 N 


CART 决 集 树 [Breiman et al., 1984] 使 用 “基尼 指数 ”(Gini index) 来 先 
择 划分 属性 . 采用 A 1) 相 相同 的 得 写 ， 数据 集 D 的 纯度 可 用 基尼 值 来 度量 : 


-X| 


Gini (D) = > > PkPk! 


k=1 k'£k 
X| 


=] — Sao (4.5) 
k=1 


直观 来 说 , Gini(D) 反映 了 从 数据 集 D 中 随机 抽取 两 个 样本 , 其 类 别 标记 
不 一 致 的 概率 . 因此 , Gini(D) 越 小 , 则 数据 集 D 的 纯度 越 高 . 
采用 与 式 (4.2) 相 同 的 符号 表示 , 属性 a 的 基尼 指数 定义 为 
v 


Gini_index(D, a) 5 





Gini D”) (4.6) 


于 是 , 我 们 在 候选 属性 集合 4 中 , 选择 那个 使 得 划分 后 基尼 指数 最 小 的 属 
性 作为 最 优 划 分 属性 , BU a, = arg min Gini_index(D, a). 
acA 


4.3 BYA ANTE 


BYA (pruning) ERAS HAM “MUS” WEFR. RRS 
JF, 为 了 尽 可 能 正确 分 类 训练 样本 , 结 点 划分 过 程 将 不 断 重复 , 有 时 会 造成 决 
集 树 分 支 过 多 , 这 时 就 可 能 因 训 练 样本 学 得 “ 太 好 ”了 , 以 致 于 把 训练 集 目 身 
的 一 些 特点 当 作 所 有 数据 部 具有 的 一 般 性 质 而 导致 过 拟 合 . 因此 , 可 通过 主动 
去 掉 一 些 分 文 来 降低 过 拟 合 的 风险 . 


决策 树 剪 枝 的 基本 策略 有 “ 预 前 枝 ”(prepruning) 和 “后 前 枝 ” (post- 


”pruning) [Quinlan, 1993]. 预 辫 校 是 指 在 决策 树 生 成 过 程 中 , 对 每 个 结 点 在 划 
分 前 先进 行 估计 , 车 当前 结 点 的 划分 不 能 带 来 决策 树 泛 化 性 能 提升 , 则 停止 划 


分 并 将 当前 结 点 标记 为 叶 结 点 ; 后 剪 梳 则 是 先 从 训练 集 生成 一 棵 完整 的 决策 树 ， 


然后 自 底 向 上 地 对 非 叶 续 点 进行 考察 , 铬 将 该 结 点 对 应 的 子 树 蔡 换 为 叶 结 点 能 
ww ai bbt.com 000DODODDODO 
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带 来 决策 树 泛 化 性 能 提升 , 则 将 该 子 树 替 换 为 叶 结 点 ， 
如 何 判断 决策 树 泛 化 性 能 是 否 提升 呢 ? 这 可 使 用 2.2 节 介 绍 的 性 能 评估 


方法 .本 节 假 定 采用 留 出 法 , 即 预 留 一 部 分 数据 用 作 “ 验 证 集 ” 以 进行 性 


能 评估 ， 例 如 对 表 4.1 的 西瓜 数据 集 2.0, 我 们 将 其 随机 划分 为 两 部 分 , 如 


表 4.2 所 示 , 编号 为 {1,2, 3,6,7,10,14, 15,16,17} 的 样 例 组 成 训练 集 , 编号 为 


{4, 5, 8,9, 11, 12, 13} 的 样 例 组 成 验证 集 . 


表 4.2 西瓜 数据 集 2.0 划分 出 的 训练 集 ( 双 线 上 部 ) 与 验证 集 ( 双 线 下 部 ) 


编号 “色泽 RF AFE 纹理 R 触感 
1 Aa m RT E ER 
2 Bm em HA 清晰 E R 
3 Bm Wm thoy ”清晰 由 陷 R 
6 育 绿 Me w 清晰 稍 凹 软 粘 
7 Se Fie Ve 稍 糊 FRED BAG 


10 青绿 He 清脆 清晰 平坦 ” 软 粘 
14 RA ie Te Be Me EA 
15 Lg Ay] HE 
i660 RA Oy ”平坦 硬 滑 
17 青绿 84 TO 稍 糊 RM 硬 滑 
编号 ” 色泽 OR RE 纹理 脐 部 触感 
4 青绿 wae wis 清晰 Mme EA 
5 浅 白 BA ma ”清晰 me ER 
8 乌黑 | ARE a ”清晰 稍 凹 硬 滑 
9 乌黑 Ae y W w A 
11 RA “硬挺 清脆 。 模糊 平坦 AR 
12 RA A m ”模糊 平坦 Ah 
13 青绿 Te ch 稍 糊 e | 硬 滑 


rhc IA A | pi i | SEY oo) Hb i | S 


假定 我 们 采用 4.2.1 节 的 信息 增益 准则 来 进行 划分 属性 选择 , 则 从 表 4.2 的 


训练 集 将 会 生成 一 一 棵 如 图 4.5 所 示 的 决策 树 . 为 便于 讨论 , 我 们 对 图 中 的 部 分 


结 点 做 了 编号 . 
4.3. 1 预 剪 枝 
我 们 先 讨论 预 剪 枝 . 基于 信 息 增益 准则 我 们 会 选取 属性 “及 部 ”来 对 训 
练 集 进行 划分 , 并 产生 3 个 分 支 , 如 图 4.6 所 示 . 然而 , 是 否 应 该 进行 这 个 划分 
呢 ? 预 剪 枝 要 对 划分 前 后 的 泛 化 性 能 进行 估计 . / 
在 划分 之 前 , 所 有 样 例 集中 在 根 结 点 . 车 不 进行 划分 , 则 根据 算法 4.2 6 


行 , 该 结 点 将 被 标记 为 叶 结 点 , 其 类 别 标记 为 训练 样 例 数 最 多 的 类 别 , 假设 我 们 
ww ai bbt.com 000000 
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脐 部 =? 
凹陷 Fe LY À 平坦 
Ez ‘= LHI 
青绿 乌黑 \、 浅 白 A, wk big a HE 
CRD [色泽 =?| GO 
青绿 F 乌黑 浅 和 白 
《好 瓜 》 (纹理 =? | 《好 瓜 》 
稍 糊 清晰 模糊 
CHI) CRD CEI 
图 4.5 基于 表 4.2 生 成 的 未 剪 枝 决策 树 
个 验证 集 精度 
“ 脐 部 =?” 划分 前 : 42.9% 






划分 后 : 71. 4% 
FARR BR: 划分 


| 验证 集 精度 ~ 验证 集 精度 


“色泽 =?” 划 分 前 : 71. 4% “ 根 带 =?” 划分 前 : 71. 4% 
划分 后 : 57. 1% 划分 后 : 71. 4% 
FA WHR: 禁止 划分 预 剪 枝 决 策 : 禁止 划分 


图 4.6 基于 表 4.2 生 成 的 预 剪 枝 决策 树 


hah ge ABREU”. 用 表 4.2 的 验证 集 对 这 个 单 结 点 决策 树 进行 评 
估 , 则 编号 为 {4,5,8} 的 样 例 被 分 类 正确 , 另外 4 个 样 例 分 类 错误 , 于 是 , 验证 
集 精度 为 3 x 100% = 42.9%. 
在 用 属性 “ 脐 部 ”划分 之 后 , 图 4.6 中 的 结 点 OQ. ©. ODER 
号 为 {1,2,3,14} {6,7,15,17}, {10,16} 的 训练 样 例 , 因此 这 3 个 结 点 分 别 
被 标记 为 时 结 点 “好 瓜 ”、“ 好 瓜 ”、“ 坏 瓜 ”， 此 时 , 验证 集中 编号 为 
{4,5, 8, 11,12} 的 样 例 被 分 类 正确 , 验证 集 精度 为 3 x 100% = 71.4% > 42.9%. 


TÆ, 用 “ 脐 部 ”进行 划分 得 以 确定 . 
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此 种 情形 下 验证 集 精 度 
虽 无 提高 ,但 根据 奥 卡 姆 
剃刀 准则 , 剪 枝 后 的 模型 
更 好 . 因此 , 实际 的 决策 树 
算法 在 此 种 情形 下 通常 要 
进行 剪 枝 . 本 书 为 绘图 的 
方便 ,采取 了 不 剪 枝 的 保 
守 策 略 . 


第 4 章 RR 树 


然后 , 决策 树 算法 应 该 对 结 上 把 @ 进 行 划 分 , 基于 信息 增益 准则 将 挑选 出 划 
分 属性 “色泽 ”. 然而 , 在 使 用 “色泽 ”划分 后 , 编号 为 {5} 的 验证 集 样本 分 类 
年 采 会 由 正确 转 为 错误 , 使 得 验证 集 精度 下 降 为 57.1%. 于 是 , BT BRM IES 


IEF FAQ) BRUT. 


对 结 反 @, 最 优 划 分 属性 为 “ 根 带 ”, 划分 后 验证 集 精度 仍 为 71.4%. 这 个 
划分 不 能 提升 验证 集 精 度 , 于 是 , TD RMR IL A AG) BAY. 


HERO, 其 所 含 训练 样 例 已 属于 同一 类 , 不 再 进行 划分 . 


于 是 , 基于 预 前 枝 策略 从 表 4.2 数据 所 生成 的 决策 树 如 图 4.6 所 示 , 其 验证 
集 精度 为 71.4%. 这 是 一 棵 仅 有 一 层 划 分 的 决策 树 , 亦 称 “ 决 策 树桩 ”(decision 
stump). 


对 比 图 4.6 和 图 4.5 可 看 出 , 预 剪 枝 使 得 决策 树 的 很 多 分 支 都 没有 “ 展 
FR”, 这 不 仅 降低 了 过 拟 合 的 风险 , 还 显著 减少 了 决策 树 的 训练 时 间 开销 和 测 
试 时 间 开 销 . 但 另 一 方面 , 有 些 分 支 的 当前 划分 虽 不 能 提升 泛 化 性 能 、 甚 至 可 

能 导致 泛 化 性 能 暂时 下 降 , 但 在 其 基础 上 进行 的 后 续 划 分 却 有 可 能 导致 性 能 显 
著 提 高 ; 预 前 枝 基 于 “贪心 ”本 质 禁止 这 些 分 支 展开 , 给 预 前 枝 决策 树 带 来 了 
欠 拟 合 的 风险 . 


4.3.2 BB as 

后 剪 枝 先 从 训练 集 生成 一 棵 完整 决策 树 , 例如 基于 表 4.2 的 数据 我 们 得 到 
如 图 4.5 所 示 的 决策 树 . 易 知 , 该 决策 树 的 验证 集 精度 为 42.9% 

后 剪 枝 首先 考察 图 4.5 中 的 结 点 @. 若 将 其 领衔 的 分 支 剪 除 , 则 相当 于 
把 @) 替换 为 叶 结 点 . 蔡 换 后 的 叶 结 点 包含 编号 为 {7, 15} 的 训练 样本 , FE, 该 
叶 结 点 的 类 别 标记 为 “好 瓜 ”， 此 时 决策 树 的 验证 集 精度 提高 至 57.1%. 于 是 ， 
Ja BY ATR HS RE BIA, 如 图 4.7 所 示 . 


然后 考察 结 反 @@), REET FY PO A, 则 替换 后 的 叶 结 点 包 
含 编写 为 {6,7,15} 的 训练 样 例 , 叶 结 点 类 别 标记 为 “好 瓜 ”, 此 时 决策 树 验 证 
集 精 度 仍 为 57.1%. 于 是 , 可 以 不 进行 前 村. | 


对 结 点 @), 车 将 其 领衔 的 子 树 替 换 为 叶 结 点 , 则 替换 后 的 叶 结 点 包含 编号 

为 {1,2,3, 14} 的 训练 样 例 , 叶 结 点 标记 为 “好 瓜 ”. 此 时 决策 树 的 验证 集 精度 
提高 至 71.4%. 于 是 , 后 剪 枝 策 略 决定 剪 枝 . = 

Hi ROMO, 车 将 其 领衔 的 子 树丛 换 为 叶 结 点 , 则 所 得 决策 树 的 验证 集 


o 71.4% 与 42.9%, 均 未 得 到 提高 . 于 是 它们 被 保留 . 
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原 分 支 “ 色 泽 =?” 验证 集 精度 
a 4s AT: 57. 1% 
MHEG: 71. 4% 


l 本 原 分 支 “纹理 =?” 验证 集 精 度 
后 前 枝 决 策 : WHE 


剪 枝 前 : 42. 9% 


DHE : of. 1% 
SRA: HR 
图 4.7 基于 表 4.2 生 成 的 后 剪 枝 决策 树 


最 终 , 基于 后 剪 校 策 略 从 表 4.2 数据 所 生成 的 决策 树 如 图 4.7 所 示 , 其 验证 
集 精 度 为 71.4%. 

对 比 图 4.7 和 图 4.6 可 看 出 , Ja BYR eT A LEP AR RR OR A T E 
多 的 分 文 . 一 般 情 形 下 , 后 剪 枝 决策 树 的 欠 拟 合 风 险 很 小 , 泛 化 性 能 往往 优 于 预 
BURR TRY. (Aa BAIS ETE SCS RR ZA BEAT IN, 并 且 要 上 自 底 癌 上 
地 对 树 中 的 所 有 非 叶 结 点 进行 逐一 考察 , VE SEC YI 2K EN TE) FP EU AS BY i Re 
AL FHLB SLR EIT AB BE KGS 


44 连续 与 缺失 值 


4.4.1 连续 值 处 理 

到 目前 为 止 我 们 仅 讨 论 了 基于 离散 属性 来 生成 决策 树 . USE SES P 
会 遇 到 连续 属性 , 有 必要 讨论 如 何在 决策 树 学 习 中 使 用 连续 属性 . 

由 于 连续 属性 的 可 取 值 数目 不 再 有 限 , 因此 , 不 能 直接 根据 连续 属性 的 可 
取 值 来 对 结 点 进行 划分 . 此 时 , 连续 属性 离散 化 扩 术 可 派 上 用 场 . 最 简单 的 策 
略 是 采用 二 分 法 (bi-partition) 对 连续 属性 进行 处 理 , 这 正 是 C4.5 决策 树 算 法 中 
采用 的 机 制 (Quinlan, 1993]. 

给 定 样本 集 D 和 连续 属性 a, 假定 a 在 DD 上 出 现 了 nn 个 不 同 的 取 值 , 将 这 
些 值 从 小 到 大 进行 排序 , A {at,a?,...,07}. 基于 划分 点 t+ 可 将 DD 分 为 子 集 
D; 和 Di, 其 中 D 包含 那些 在 属性 a 上 取 值 不 大 于 的 样本 , 而 DS 则 包含 
那些 在 属性 a FUE KE t 的 样本 aR, 对 相 邻 的 属性 取 值 w 5 aH 来 说 ,+ 


. CoM 
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可 将 划分 点 设 为 该 属性 
在 训练 集中 出 现 的 不 大 
于 中 位 点 的 最 大 值 , 从 而 
使 得 最 终 决策 树 使 用 的 划 
分 点 都 在 训练 集中 出 现 过 
[Quinlan, 1993]. 
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在 区 间 [oz ai+1) 中 取 任 意 值 所 产生 的 划分 结果 相同 . 因此 , 对 连续 属性 a, 我 们 


”可 考察 包含 n 一 1 个 元 素 的 候选 划分 点 集合 


i i+1 | 
n=] icici}, (4.7) 


即 把 区 间 [ai, of+1) 的 中 位 点 HT 作为 候选 划分 点 . 然后 , 我 们 就 可 像 离散 
属性 值 一 样 来 考察 这 些 划分 点 , 选取 最 优 的 划分 点 进行 样本 集合 的 划分 . 例如 ， 
可 对 式 (4.2) 稍 加 改造 : 


Gain(D,a) =max Gain(D,a, t) 


t€T a 
— max Ent(D) 一 > [Del pa, | (4.8) 
tETa ID| Oe 


AE{—,+} 


其 中 Gain(D, a, t) 是 样本 集 D 基于 划分 点 t 二 分 后 的 信息 增益 . FE, 我 们 就 
可 选择 使 Gain(D,a,t) 最 大 化 的 划分 点 . 


作为 一 个 例子 , 我 们 在 表 4.1 的 西瓜 数据 集 2.0 上 增加 两 个 连续 属性 “ 密 
度 ” 和 “ 售 糖 率 ”, 得 到 表 4.3 所 示 的 西瓜 数据 集 3.0. 下 面 我 们 用 这 个 数据 集 


表 4.3 西瓜 数据 集 3.0 


编号 ”色泽 RF WE 纹理 脐 部 ”触感 密度 AWZ 
1 青绿 eA w ”清晰 ”四 陷 硬 滑 。0.697 0.460 
2 乌黑 hese. to Tei PE 硬 滑 0.774 0.376 
3 BE weep 浊 啊 清晰 Fe 硬 滑 0.634 ”0.264 
4 青绿 eae 沉 问 清晰 ”由 陷 ” 硬 滑 0.608 0.318 
5 RA “” 姨 缩 ” 浊 响 清晰 e 硬 滑 0.556 0.215 
6 青绿 e 浊 响 清晰 稍 凹 软 粘 0.403 0.237 
7 Be Fee Yao AAA A 软 粘 .0.481 0.149 
8 乌黑 Fs om 清晰 稍 凹 硬 滑 0.437 0.211 
9 SS Fike bil He FL Gee 0.666 0.091 
10 “青绿 硬挺 清脆 清晰 平坦 软 粘 0.243 0.267 
11 RA 硬挺 清脆 模糊 平坦 E 0.245 0.057 
12 A A yao 模糊 平坦 软 粘 0.343 ” 0.099 | 
13 .青绿 Fe miw 稍 糊 OG 硬 滑 0.639 0.161 
144 RA tee te AA RA 看 滑 0.657 0.198 
15 Sk Mee 浊 啊 清晰 稍 凹 软 粘 0.360 0.370 
16 Á EA Wim 模糊 平坦 硬 滑 0.593 0.042 
17 “青绿 eA 沉闷 A 稍 凹 硬 滑 0.719 0.103 
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对 属性 “密度 ”, 在 决策 树 学 习 开 始 时 , RA RASH 17 个 训练 
样本 在 该 属性 上 取 值 均 不 同 . 根据 式 (4.7), 该 属性 的 候选 划分 点 集合 
包含 16 个 候选 值 : Tree = {0.244, 0.294, 0.351, 0.381, 0.420, 0.459, 0.518, 
0.574, 0.600, 0.621, 0.636, 0.648, 0.661, 0.681, 0.708, 0.746}. 由 式 (4.8) 可 计算 
出 属性 “密度 ”的 信息 增益 为 0.262, 对 应 于 划分 点 0.381. 

对 属性 “ 含 糖 率 ”, 其 候选 划分 点 集 合 也 包含 16 个 候选 值 ; Tope = 
{0.049, 0.074, 0.095, 0.101, 0.126, 0.155, 0.179, 0.204, 0.213, 0.226, 0.250, 0.265, 
0.292, 0.344, 0.373, 0.418}. 类 似 的 , 根据 式 (4.8) 可 计算 出 其 信息 增益 为 0.349， 
对 应 于 划分 点 0.126. 

再 由 4.2.1 节 可 知 , K 4.3 的 数据 上 各 属性 的 信息 增益 为 

Gain(D, 色 泽 ) = 0.109; Gain(DD, 根 带 ) = 0.143; 
Gain(DD, 识 声 ) = 0.141; Gain(D, 纹理) = 0.381; 
Gain(D, 脐 部 ) = 0.289;，Gain(D, 触 感 ) = 0.006; 
Gain(D, 密度 ) = 0.262;，Gain(D, 含 糖 率 ) = 0.349. 

TE, “纹理 ”被 选 作 根 结 点 划分 属性 , 此 后 结 点 划分 过 程 递 归 进 行 , 最 终 

生成 如 图 4.8 所 示 的 决策 树 . 











清晰 
密度 过 0.381? 
是 < 


否 






4.8 在 西瓜 数据 集 3.0 上 基于 信息 增益 生成 的 决策 树 


例如 在 父 结 点 上 使 用 了 需 注意 的 是 , 与 离散 属性 不 同 , 若 当前 结 点 划分 属性 为 连续 属性 , 该 属性 还 


“密度 <0.381”,， 不 会 禁 


LETH RLM “ 窗 ” 可 作为 其 后 代 结 点 的 划分 属性 . 
Z <0.294” . 
| 44.2 缺失 值 处 理 


现实 任务 中 常会 遇 到 不 完整 样本 , 即 样本 的 茶 些 属性 值 缺 失 . 例如 由 于 诊 
测 成 本 、 隐 私 保护 等 因素 , 患者 的 医疗 数据 在 某 些 属性 上 的 取 值 (如 HIV 测试 
结果 ) 未 知 ; 尤其 是 在 属性 数目 较 多 的 情况 下 , 往往 会 有 大 量 样本 出 现 缺 失 值 . 
如 有 果 人 简单 地 放弃 不 窑 整 样本 仅 体 用 看 缺失 值 的 样本 来 进行 笃 习 ， 显然 是 对 数 


com Ñ 
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在 决策 树 学 习 开 始 阶段 ， 
” 根 结 点 中 各 样本 的 权重 初 
始 化 为 1. 


据 信息 极 大 的 浪费 . 例如 , 表 4.4 是 表 4.1 中 的 西瓜 数据 集 2.0 出 现 缺 失 值 的 版 


”本 , 如 果 放 弃 不 完整 样本 , 则 仅 有 编号 {4, 7, 14, 16} 的 4 个 样本 能 被 使 用 . 显 


R, 有 必要 考虑 利用 有 缺失 属性 值 的 训练 样 例 来 进行 学 习 . 


表 4.4 西瓜 数据 集 2.0a 


编号 EF FR WE 纹理 X 触感 好 瓜 - 
1 We Hl =| 清晰 EB 便 滑 是 
2 乌黑 wef ， 沉 问 清晰 H K 一 是 
3 乌黑 We Ae 一 清晰 ” ”四 陷 便 滑 是 
4 Bee = WE y H K TEYE E 
5 2 WEZA 浊 响 清晰 Hp 硬 滑 是 
6 青绿 me 浊 响 清晰 一 ORG fe i 
7 乌黑 Fe bee Re AEH 稍 四 BORG 是 
8 乌黑 THRE yek mE 一 FH 硬 滑 是 
9 乌黑 一 沉 问 稍 糊 HE 硬 滑 a 
10 BR hte 清脆 一 平坦 软 粘 否 
11 RA 硬挺 清脆 模糊 平坦 = a 
12 RÁ REAA — 模糊 平坦 软 粘 F 
13 一 AH Wee yk mE 稍 糊 凹陷 硬 滑 a 
14 RÁ FA JAN 稍 糊 凹陷 硬 滑 T 
15 乌黑 FHR 浊 响 清晰 — 软 粘 a 
16 RÁ Wes ej 浊 响 模糊 平坦 硬 滑 否 
17 青绿 — MA 稍 糊 FA 硬 滑 否 


”我 们 需 解决 两 个 问题 : (1) 如 何在 属性 值 缺失 的 情况 下 进行 划分 属性 选择 ? 
(2) 给 定 划分 属性 , 车 样本 在 该 属性 上 的 值 缺 失 , 如 何 对 样本 进行 划分 ? 

给 定 训 练 集 D 和 属性 a, & Da D 中 在 属性 a 上 没有 缺失 值 的 样本 子 
集 . 对 问题 (1), 显然 我 们 仅 可 根据 万 来 判断 属性 a 的 优 劣 . 假定 属性 a 有 V 个 
可 取 值 fal,a2, ,ay]}, & D RR D PERHE a 上 取 值 为 o 的 样本 子 集 , Dy 
表示 户 PREFE k% (k= 1,2,...,|2|) 的 样本 子 集 , MURAD = U| Dr, 
万 = UV DY. 假定 我 们 为 每 个 样本 x 赋予 一 个 权重 we, 并 定义 


Wg 
2 aED Wa 
Pe = (1 <k< |), (4.10) 
eed We 
pee yey). (4) 


oa a 
| Dep We 
wwaibbt.com P0O000000 
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直观 地 看 , 对 属性 a, p 表示 无 缺失 值 样本 所 占 的 比例 , Px 表示 无 缺失 值 样本 中 


”第 类 所 占 的 比例 , o 则 表示 无 缺失 值 样本 中 在 属性 a 上 取 值 oz 的 样本 所 占 


的 比例 . 显然 , OP pr =1, 并 入 1. 
基于 上 述 定义 , 我 们 可 将 信息 增益 的 计算 式 (4.2) 推 广 为 


Gain(D, a) = p x Gain(D, a) 


aS (en (0 )- ar 人 有 (4.12) 


其 中 由 式 (4.1), 有 
| 


— Ent(D) =- Ör logs Br . 
k=1 

对 问题 (2), 若 样本 z 在 划分 属性 a 上 的 取 值 已 知 , 则 将 x 划 入 与 其 取 值 对 
应 的 子 结 点 , 且 样 本 权 值 在 子 结 点 中 保持 为 we. 若 样 本 r 在 划分 属性 a 上 的 取 
值 未 知 , 则 将 oc 同时 划 入 所 有 子 结 点 , 且 样 本 权 值 在 与 属性 值 a? 对 应 的 子 结 点 
中 调整 为 o: We; 直观 地 看 , 这 就 是 让 同一 个 样本 以 不 同 的 概率 划 入 到 不 同 的 
子 结 点 中 去 。 | 

C4.5 算法 使 用 了 上 述 解决 方案 [Quinlan, 1993]. 下 面 我 们 以 表 4.4 的 数据 
集 为 例 来 生成 一 棵 决策 树 . 

在 学 习 开始 时 , 根 结 点 包含 样本 集 D 中 全 部 17 个 样 例 , 各 样 例 的 权 值 
均 为 1. 以 属性 “色泽 ”为 例 , 该 属性 上 无 缺失 值 的 样 例子 集 万 包含 编号 为 
{2, 3, 4, 6, 7, 8, 9, 10, 11, 12, 14, 15,16,17} 的 14 个 样 例 . 显然 , D KAA 


Ent(D) = -55 Pr logs Pk 
k=1 


6 6 8 8 
= - (Fee: ate a) = 0.985 . 


令 D, D? 与 D 分 别 表示 在 属性 “色泽 ”上 取 值 为 “青绿 ” “OR DL 
RRA” WERTE, 有 


~ 2 2 2 2 
Ent(D*) = — (3 logs 一 i 十 一 log。 1) = = 1.000 , 


~ A 4 2 2 
Ent(D?) = — ( logs = + = logs z) = 0.918 , 
ww ai bbt. com [] N 9 6 
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| 
Ent(D°) = (3108; 7 t 1 1082 7 = 0.000 , 
因此 , 样本 子 集 D 上 属性 “色泽 ”的 信息 增益 为 


3 
”Gain(D, 色 泽 ) = Ent(D) ~ Lf Ent( D”) 


心 


6 4 
= 0.985 一 OE E 


= 0.306 . 
于 是 , 样本 集 D 上 属性 “色泽 ”的 信息 增益 为 
”Gain(D, 色 泽 ) = p x  Gain(D, 色泽 ) = = x 0.306 = 0.252 . 


类 似 地 可 计算 出 所 有 属性 在 D 上 的 信息 增益 : 
”Gain(D, 色 泽 ) = 0.252， Gain(D, ###) = 0.171; 
Gain(D, MF) = 0.145; Gain(D, 纹理 ) = 0.424; 
Gain(D, 脐 部 ) = 0.289;，Gain(D, 触 感 ) = 0.006. 


“纹理 ”在 所 有 属性 中 取得 了 最 大 的 信息 增益 , 被 用 于 对 根 结 点 进行 划分 . 
划分 结果 是 使 编号 为 {1,2, 3,4,5,6,151 的 样本 进入 “纹理 = 清晰 ”分 支 , 编号 
为 {7,9, 13, 14, 17} 的 样本 进入 “纹理 = 稍 糊 ” 分 支 , 而 编号 为 {11, 12, 16} 的 样 

”本 进入 “纹理 = 模糊 ”分 文 , 且 样 本 在 各 子 结 点 中 的 权重 保持 为 1. 需 注意 的 
是 , 编号 为 {8} 的 样本 在 属性 “纹理 ”上 出 现 了 缺失 值 , 因此 它 将 同时 进入 三 
个 分 支 中 , 但 权重 在 三 个 子 结 点 中 分 别 调整 为 和 者、 总 和 车 . 编号 为 {10} WH 

本 有 类 似 划分 结果 . | 


上 述 结 点 划分 过 程 递归 执行 , 最 终生 成 的 决策 树 如 图 4.9 所 示 . 


4.5 多 变量 决策 树 


若 我 们 把 每 个 属 性 视 为 坐标 空间 中 的 一 个 坐标 轴 , 则 4d 个 属性 描述 的 样本 
BEATIN Td 维 空间 中 的 一 个 数据 点 , 对 样本 分 类 则 意味 着 在 这 个 坐标 空间 中 寻 
找 不 同类 样本 之 间 的 分 类 边界 . 决策 树 所 形成 的 分 类 边界 有 一 个 明显 的 特 反 : 


轴 平 行 (axis- -parallel), 即 它 HPAI HETA 与 坐标 轴 平 行 的 分 段 组 成 . 
bbt. com TIT A O 





稍 糊 清晰 模糊 
E TENNE S BE bg AR NORTE 青绿 乌黑 人、 浅 自 
RDU =) GRD GED (=) GD GID GED CHI 
凹陷 AR NPE A 乌黑 NÁ 
am GED GED GED [触感 =?] GHO 
l 硬挺 软 粘 
CEM CRM 


图 4.9 在 西瓜 数据 集 200 上 基于 信息 增益 生成 的 决策 树 


以 表 4.5 中 的 西瓜 数据 3.0a 为 例 , 将 它 作为 训练 集 可 学 得 图 4.10 所 示 的 决 
FY, 这 柠 树 所 对 应 的 分 类 边界 如 图 4.11 所 示 . 


西瓜 数据 集 3.0a 是 由 表 4.5 西瓜 数据 集 30a 
sn ta is ”密度 AEZ ”好 瓜 
1 0.697 0.460 
2 0.774 0.376 
3 0.634 0.264 
A 0.608 0.318 
5 0.556 0.215 
6 0.403 0.237 
T 0.481 0.149 
8 0.437 0.211 


9 0.666 0.091 
10 0.243 0.267 
11 0.245 0.057 
12 0.343 0.099 
13 0639 0.161 
14 0657 0.198 
15 0.360 0.370 
16 0.593 0.042 
17 0.719 0.103 


D D DH Dp Do Ol Ol OL Op | A A A Al Al 


显然 , 分 类 边界 的 每 一 段 都 是 与 坐标 轴 平 行 的 . 这 样 的 分 类 边界 使 得 学 习 
结果 有 较 好 的 可 解释 性 , 因为 每 一 段 划 分 都 直接 对 应 了 某 个 属性 取 值 . 但 在 学 
习 任 务 的 真实 分 养 浪 界 比较 算 杂 时 ,必须 使 用 很 多 段 划 分 才能 获得 较 好 的 近似 , 
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这 样 的 多 变量 决策 树 亦 
AR “BOR RA” (oblique 


decision tree). 


第 4 章 决策 树 
含 糖 率 <0.1263 
| 密度 <0.381? 






| 





4.11 图 4.10 决策 树 对 应 的 分 类 边界 


如 图 4.12 所 示 ; 此 时 的 决策 树 会 相当 复杂 , 由 于 要 进行 大 量 的 属性 测试 , 预测 
时 间 开 销 会 很 大 . | 四 
若 能 使 用 斜 的 划分 边界 , 如 图 4.12 中 红色 线段 所 示 , 则 决策 树 模型 将 大 为 


简化 . “多 变量 决策 树 ” (multivariate decision tree) 耽 是 能 实现 这 样 的 “和 斜 划 


分 ”甚至 更 复杂 划分 的 决策 树 . 以 实现 斜 划分 的 多 变量 决策 树 为 例 , 在 此 类 决 
策 树 中 , 非 叶 结 点 不 再 是 仅 对 某 个 属性 , 而 是 对 属性 的 线性 组 合 进行 测试 ; 换 言 
之 , 每 个 非 叶 结 点 是 一 个 形 如 OE, wa = t 的 线性 分 类 器 , 其 中 wi 是 属性 a 
的 权重 , wi 和 + 可 在 该 结 点 所 含 的 样本 集 和 属性 集 上 学 得 . 于 是 , 与 传统 的 “ 单 
变量 决策 树 ”(univariate decision tree) 不 同 , 在 多 变量 决策 树 的 学 习 过 程 中 
AR RAE PAR E RO YB, 而 是 试图 建立 一 个 合适 的 线性 分 
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4.12 决策 树 对 复杂 分 类 边界 的 分 段 近似 


线性 分 类 器 参见 第 3 章 。 类 器 . 例如 对 西瓜 数据 3.00, 我 们 可 学 得 图 4.13 这 样 的 多 变量 决策 树 , 其 分 类 
边界 如 图 4.14 所 示 . 





—0.800 x 密度 -0.044x 含 糖 率 <-0.313 






-0.365x 密 度 + 0.366x 含 糖 率 莹 -0.158? 
是 T 


图 4.13 在 西瓜 数据 集 3.00 上 生成 的 多 变量 决策 树 








> 


密度 


4.14 图 4.13 多 变量 决策 树 对 应 的 分 类 边界 


wwaibbt.com P0O000000 
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本 质 上 , 各 种 特征 选择 
方法 均 可 用 于 决策 树 的 划 
分 属性 选择 . 特征 选择 参 
见 第 11 章 . 


关于 感知 机 和 神经 网 络 ， 
参见 第 5 章 . 
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4.6 阅读 材料 


决策 树 学 习 算 法 最 著名 的 代表 是 ID3 [Quinlan, 1979, 1986], C4.5 [Quin- 
lan, 1993] 和 CART [Breiman et al., 1984]. [Murthy, 1998| 提供 了 一 个 关于 决 
策 树 文献 的 阅读 指南 . C4.5Rule 是 一 个 将 C4.5 决策 树 转 化 为 符号 规则 的 算法 
(Quinlan, 1993], 决策 树 的 每 个 分 支 可 以 容易 地 重 写 为 一 条 规则 , 但 C4.5Rule 
算法 在 转化 过 程 中 会 进行 规则 前 件 合 并 、 删 减 等 操作 , 因此 最 终 规则 集 的 泛 化 
性 能 甚至 可 能 优 于 原 决策 树 ， | 

在 信息 增益 、 增 益 率 、 基 尼 指 数 之 外 , 人 们 还 设计 了 许多 其 他 的 准则 用 
于 决策 树 划 分 选择 , 然而 有 实验 研究 表明 [Mingers, 1989b], 这 些 准则 虽然 对 
决策 树 的 尺寸 有 较 大 影响 , 但 对 泛 化 性 能 的 影响 很 有 限 . [Raileanu and Stoffel, 
2004] 对 信息 增益 和 基尼 指数 进行 的 理论 分 析 也 显示 出 , 它们 仅 在 2% 的 情况 下 
会 有 所 不 同 . 4.3 节 介绍 了 决策 树 剪 枝 的 基本 策略 ; 剪 枝 方法 和 程度 对 决策 树 泛 
化 性 能 的 影响 相当 显著 , 有 实验 研究 表明 [Mingers, 1989al, 在 数据 带 有 噪声 时 
通过 前 枝 甚 至 可 将 决策 树 的 泛 化 性 能 提高 25%. | 

多 变量 决策 树 算 法 主要 有 OC1 [Murthy et al., 1994] 和 [Brodley and Ut- 
goff, 1995] 提出 的 一 系列 算法 . OC1 先 贪心 地 寻找 每 个 属性 的 最 优 权 值 , 在 局 
部 优化 的 基础 上 再 对 分 类 边界 进行 随机 扰动 以 试图 找到 更 好 的 边界 ; [Brodley 
and Utgoff, 1995] 则 直接 引入 了 线性 分 类 器 学 习 的 最 小 二 乘法 , 还 有 一 些 算法 
试图 在 决策 树 的 叶 结 点 上 嵌入 神经 网 络 , 以 结合 这 两 种 学 习 机 制 的 优势 , 例如 
“感知 机 树 ”(Perceptron tree) [Utgoff, 1989b] 在 决策 树 的 每 个 叶 结 点 上 训练 
一 个 感知 机 , 而 [Guo and Gelfand, 1992] 则 直接 在 叶 结 点 上 嵌入 多 层 神 经 网 络 . 

有 一 些 决策 树 学 习 算 法 可 进行 “ 增 量 学 习 ”(incremental learning), 即 在 
接收 到 新 样本 后 可 对 已 学 得 的 模型 进行 调整 , 而 不 用 完全 重新 学 习 . 主要 机 
制 是 通过 调整 分 支 路 径 上 的 划分 属性 次 序 来 对 树 进行 部 分 重 构 , 代表 性 算法 
有 ID4 [Schlimmer and Fisher, 1986]. ID5R [Utgoff, 1989a]. ITI [Utgoff et al., 
1997] 等 . 增 量 学 习 可 有 效 地 降低 每 次 接收 到 新 样本 后 的 训练 时 间 开 销 , 但 多 步 
增 量 学 习 后 的 模型 会 与 基于 全 部 数据 训练 而 得 的 模型 有 较 大 差别 . 
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UCI 数据 集 见 
http://archive.ics.uci.edu/ml/. . 
统计 显著 性 检验 参见 
2.4 节 . 


4.4 


4.5 


4.6 


4.7 


4.8* 


4.9 


4.10 


西瓜 数据 集 3.0 见 p.84 
的 表 4.3. 
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试 证 明 对 于 不 含 冲突 数据 ( 即 特征 向 量 完全 相同 但 标记 不 同 ) 的 训练 
集 , 必 存 在 与 训练 集 一 致 ( 即 训练 误差 为 0) 的 决策 树 

试 析 使 用 “最 小 训练 误差 ”作为 决策 树 划 分 选择 准则 的 缺陷 . 

试 编程 实现 基于 信息 业 进 行 划分 选择 的 决策 树 算法 , 并 为 表 4.3 中 数 
据 生 成 一 棵 决策 树 . : | 

试 编程 实现 基于 基尼 指数 进行 划分 选择 的 决策 树 算法 , 为 表 4.2 中 数 
据 生成 预 前 枝 、 后 前 枝 决策 树 , 并 与 未 剪 枝 决 策 树 进行 比较 . 

试 编程 实现 基于 对 率 回归 进行 划分 选择 的 决策 树 算法 , 并 为 表 4.3 中 
数据 生成 一 棵 决策 树 . 

试 选 择 4 个 UCI 数据 集 , 对 上 述 3 种 算法 所 产生 的 未 前 枝 、 预 前 枝 、 
后 前 枝 决 策 树 进行 实验 比较 , 并 进行 适当 的 统计 显著 性 检验 . 

图 4.2 是 一 个 递归 算法 , 若 面临 巨 量 数据 , 则 决策 树 的 层 数 会 很 深 , 使 
EATER SB OE” ME. 试 使 用 “队列 ”数据 结构 ,以 参数 
Maz Depth 控制 树 的 最 大 深度 , 写 出 与 图 4.2 等 价 、 但 不 使 用 递归 的 
决策 树 生 成 算法 . / 

试 将 决策 树 生成 的 深度 优先 搜索 过 程 修改 为 广度 优先 搜索 , 以 参数 
MazNode 控制 树 的 最 大 结 点 数 , 将 题 4.7 中 基于 队列 的 决策 树 算法 
进行 改写 . 对 比 题 4.7 中 的 算法 , 试 析 哪 种 方式 更 易于 控制 决策 树 所 
需 存 储 不 超出 内 存 . 


试 将 4.4.2 节 对 缺失 值 的 处 理 机 制 推广 到 基尼 指数 的 计算 中 去 .， 


从 网 上 下 载 或 自己 编程 实现 任意 一 种 多 变量 决策 树 算法 , 并 观察 其 在 
西瓜 数据 集 3.0 上 产生 的 结果 ， 
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小 故事 : 决策 树 与 罗斯 。 昆 兰 
说 起 决策 树 学 习 , 就 必然 要 谈 到 澳大利亚 计算 机 科学 家 
罗斯 。 昆 兰 (J. Ross Quinlan, 1943— ). 
最 初 的 决策 树 算法 是 心理 学 家 兼 计算 机 科学 家 E. B. 
Hunt 1962 年 在 研究 人 类 的 概念 学 习 过 程 时 提出 的 CLS 
(Concept Learning System), 这 个 算法 确立 了 决策 树 “ 分 而 
治之 ”的 学 习 策略 . 罗斯 。 昆 兰 在 Hunt 的 指导 下 于 1968 年 在 美国 华盛顿 大 学 
获得 计算 机 博士 学 位 , 然后 到 悉尼 大 学 任教 . 1978 年 他 在 学 术 假 时 到 斯 坦 福 大 
学 访问 , 选修 了 图 灵 的 助手 D. Michie 开设 的 一 门 研究 生 课 程 . 课 上 有 一 个 大 
作业 , 要 求 写 程序 来 学 习 出 完备 正确 的 规则 , 以 判断 国际 象棋 残局 中 一 方 是 否 
会 在 两 步 棋 后 被 将 死 . 昆 兰 写 了 一 个 类 似 于 CLS 的 程序 来 完成 作业 , 其 中 最 重 
要 的 改进 是 引入 了 信息 增益 准则 . 后 来 他 把 这 个 工作 整理 出 来 在 1979 年 发 表 ， 
这 就 是 ID3 算法 . 
1986 年 Machine Learning 杂志 创刊 , 昆 兰 应 邀 在 创刊 号 上 重新 发 表 了 ID3 
算法 , 掀起 了 决策 树 研 究 的 热潮 . 短 短 几 年 间 众 多 决策 树 算法 问世 , ID4、ID5 
等 名 字 迅 速 被 其 他 研究 者 提出 的 算法 占用 , 昆 兰 只 好 将 自己 的 ID3 后 继 算 法 命 
_C4.0 是 Classifier 4.0 的 ”名 为 C4.0, 在 此 基础 上 进一步 提出 了 著名 的 C4.5. 有 趣 的 是 , 昆 兰 自称 C4.5 仅 
i 是 对 C4.0 做 了 些小 改进 , 因此 将 它 命名 为 “第 4.5 代 分 类 器 ”, 而 将 后 续 的 商 


C4.5 在 WEKA 中 的 实 
现 称 为 J4.8. 业 化 版 本 称 为 C5.0. 
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本 书 所 谈 的 是 “人 工 神 
经 网 络 ”, 不 是 生物 学 意 
义 上 的 神经 网 络 . 


这 是 T. Kohonen 1988 
年 在 Neural Networks 创刊 
号 上 给 出 的 定义 . 


neuron 亦 称 unit. 


亦 称 bias. 注意 不 是 
“RE” | 虽然 其 含义 的 
确 类 似 于 “阀门 ”. 
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5.1 神经 元 模型 


神经 网 络 (neural networks) 方面 的 研究 很 时 就 已 出 现 , 今天 “神经 网 络 ” 
己 是 一 个 相当 大 的 、 多 学 科 交 又 的 学 科 领 域 . 各 相关 学 科 对 神经 网 络 的 定义 多 
种 多 样 , 本 书 采 用 目前 使 用 得 最 广泛 的 一 种 , 即 “ 神 经 网 络 是 由 具有 适应 性 的 
简单 单元 组 成 的 广泛 并 行 互 连 的 网 络 , 它 的 组 织 能 够 模拟 生物 神经 系统 对 真实 
世界 物体 所 作出 的 交互 有 反应” [Kohonen, 1988]. 我 们 在 机 器 学 习 中 谈论 神经 网 
络 时 指 的 是 “神经 网 络 学 习 ”, 或 者 说 , 是 机 器 学 习 与 神经 网 络 这 两 个 学 科 领 
域 的 交叉 部 分 . 

神经 网 络 中 最 基本 的 成 分 是 神经 元 (neuron) 模 型 , MEREN RH “f e 
单元 ”. 在 生物 神经 网 络 中 , 每 个 神经 元 与 其 他 神经 元 相连 , 当 它 “兴奋 ”时 ， 
就 会 问 相 连 的 神经 元 发 送 化 学 物质 , 从 而 改变 这 些 神经 元 内 的 电位 ; RR 
AEMET eA “BE” (threshold), HAE wiz Be, Bl “MAF” 
起 来 , 癌 其 他 神经 元 发 送 化 学 物质 . 

1943 年 , [McCulloch and Pitts, 1943] 将 上 述 情形 抽象 为 图 5.1 所 示 的 简单 
模型 , 这 就 是 一 直 治 用 至 今 的 “M-P 神经 元 模型 ”. 在 这 个 模型 中 , 神经 元 接 
收 到 来 自 nw 个 其 他 神经 元 传递 过 来 的 输入 信号 , 这些 输 入 信号 通过 融 权 重 的 连 
接 (connection) 进 行 传递 , 神经 元 接收 到 的 总 输入 值 将 与 伸 经 元 的 阔 值 进行 比 
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TAR hy A BA 


这 里 的 阶 跃 函数 是 单位 
阶 跃 函数 的 变 体 ; 对 数 几 
Z Až] Æ Sigmoid 函数 
的 典型 代表 . 参见 3.3 P. 


“模拟 生物 神经 网 络 ” 
是 认 知 科学 家 对 神经 网 络 
所 做 的 一 个 类 比 阐释 . 


例如 10 个 神经 元 两 两 
连接 , 则 有 100 个 参数 : 90 
个 连接 权 和 10 4S BAB. 
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较 , 然后 通过 “激活 函数 ”(activation function) 处 理 以 产生 神经 元 的 输出 . 
理想 中 的 激活 函数 是 图 5.2(a) Pras eT eR eR Be, 它 将 输入 值 上 映射 为 输出 
值 “0” 或 “1”, 显然 “1” 对 应 于 神经 元 兴奋 ，“0” 对 应 于 神经 元 抑制 . A 
m, 阶 跃 函数 共有 不 连续 、 不 光滑 等 不 太 好 的 性 质 , 因此 实际 常用 Sigmoid 
函数 作为 激活 函数 . 典型 的 Sigmoid 函数 如 图 5.2(b) Pras, 它 把 可 能 在 较 大 


芳 围 内 变化 的 输入 值 挤 压 到 (0, 1) 输出 值 范围 内 , 因此 有 时 也 称 为 “ 挤 压 函 


数 ”(squashing function). 


| sgn(z) sigmoid(z) 
1 





l, «£20; ae l 
sen(x) = | i i siemoidiz)= ESE 
(a) ISA BA (b) Sigmoid 函数 


5.2 典型 的 神经 元 激活 函数 


把 许多 个 这 样 的 神经 元 按 一 定 的 层次 结构 连接 起 来 , 就 得 到 了 和 神经 网 络 . 

事实 上 , 从 计算 机 科学 的 角度 看 , 我 们 可 以 移 不 考虑 神经 网 络 是 否 真 的 模 
拟 了 生物 神经 网 络 , 只 需 将 一 个 神经 网 络 视 为 包含 了 许多 参数 的 数学 模型 , 这 
个 模型 是 若干 个 函数 , PIG y = f (D0; wits — 0j) 相互 ( 嵌 套 ) 代 入 而 得 . 有 效 的 
利 经 网 络 学 习 算法 大 多 以 数学 证 明 为 文 撑 . 


5.2 感知 机 与 多 层 网 络 


感知 机 (Perceptron) 由 两 层 神经 元 组 成 , 如 图 5.3 Pras, 输入 层 接 收 外 
界 输入 信号 后 传递 给 输出 层 , 输出 层 是 M-P 神经 元 , DNR “ Bd ee E a 
jt” (threshold logic unit). 

感知 机 能 容易 地 实现 逻辑 与 、 或 、 非 运算 . 注意 到 y = fOl, wits — 9), 假 
定 了 是 图 5.2 中 的 阶 跃 函数 , 有 


e “与 ”(Z1 A To): Swi = tHe = 1. e = 2, Wy = f(l- 21 +1- 22-2), M 
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输出 层 


输入 层 
Ly T2 


图 5.3 Ain 经 元 的 感知 机 网 络 结构 示意 图 


Æ zı = x2 = 1 Ñf, y = 1; 


e “I” (x1 Vag): S w = w = 1, 0 = 0.5, 则 y = f(1 -z1 +1- z3 — 0.5), 
X xi = 1 8È z = 1 HF, y= 


@ Bee í (aar R Sw 1 = —0.6, et 0 = —0.5, Wy =F 0.6 . xı +0- 
x2 + 0.5), 421, =1WN, y = 0; 42, =0WN, y= 1. 


更 一 般 地 , 给 定 训练 数据 集 , 权重 wi (i = 1,2,...,n) DE 0 可 通过 学 
习 得 到 . BE O 可 看 作 一 个 固定 输入 为 -1.0 的 “mp (dummy node) 所 对 
应 的 连接 权重 wni, 这 样 , ABM A RATS AREWA. 感知 机 
学 习 规则 非常 简单 , 对 训练 样 例 (z,y), 若 当前 感知 机 的 输出 为 则 感知 机 权 
和 i 个 给 重 将 这 样 调整 


入 神经 元 的 分 量 . : | 
Wi — wi + Au; , (5.1) 


Awi = ny — 9) a , | (5.2) 


Pe PREIA E rhn e (0,1) 称 为 学 习 率 (learning rate)， 从 式 (5.1) 可 看 出 , 若 感知 机 对 训练 
样 例 (x,y) 预测 正确 , 即 $= y, 则 感知 机 不 发 生变 化 , 否则 将 根据 错误 的 程度 
进行 权重 调整 . 

需 注意 的 是 , 感知 机 只 有 输出 层 神经 元 进行 激活 函数 处 理 , 即 只 拥有 一 层 

功能 神经 元 (functional neuron), 其 学 习 能 力 非 常 有 限 . 事实 上 , 上 述 与 、 或 、 
非 问题 都 是 线性 可 分 (linearly separable) 的 问题 . 可 以 证 明 [Minsky and Papert, 
1969], 若 两 类 模式 是 线性 可 分 的 , 即 存 在 一 个 线性 超 平面 能 将 它们 分 开 , 如 图 
5.4(a)-(c) 所 示 , 则 感知 机 的 学 习 过 程 一 定 会 收敛 (converge) 而 求 得 适当 的 权 向 
Hw = (wi; w2;...; Wn); 否则 感知 机 学 习 过 程 将 会 发 生 振 荡 (fluctuation), w 
ee re 难以 稳定 下 来 , 不 能 求 得 合适 解 , 例如 感知 机 甚至 不 能 解决 如 图 5.4(d) 所 示 的 


用 线性 超 平面 无 法 划分 . 异 或 这 样 简单 的 非 线性 可 分 问题 
bbt.comUDHDODOOD 
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@) “与 ”问题 (£1 A 22) (b) “或 ”问题 (£1 V Zo) 


划分 超 平面 ， 右 边 为 


PP 《 3 “ae 2) 
i —" , AAJ + 





() “aE” FA (721) (4) “HR” MM (x1 @ 19) 
图 5.4 线性 可 分 的 “与 ” “或 ” “ 非 ”问题 与 非 线 性 可 分 的 “ 异 或 ”问题 


要 解决 非 线 性 可 分 问题 , 第 考虑 使 用 多 屋 功 能 神经 元 . 例如 图 5.5 中 这 个 
俏 单 的 两 层 感 知 机 吏 能 解决 卉 或 问题 . 在 图 5.5(a) 中 , 输出 层 与 输入 层 之 间 的 一 
层 神 经 元 , 被 称 为 隐 层 或 隐 含 层 (hidden layer), 隐 含 层 和 和 输出 层 神 经 元 都 是 拥 
有 激活 函数 的 功能 神经 元 . 

更 一 般 的 , 常见 的 神经 网 络 是 形 如 图 5.6 所 示 的 层级 结构 , 每 层 神经 元 与 下 
一 层 神 经 元 全 互 连 , 神经 元 之 间 不 存在 同 层 连接 , 也 不 存在 路 层 连接 . 这 样 的 
神经 网 络 结构 通 币 称 为 “多 层 前 饿 神经 网 络 ”(multi-layer feedforward neural 


人 420.5 
0.1) + 
5] 420.5 8] 42.0.5 


1 —] |1 -_ 






Tı L 
(a) 网 络 结 构 





5.3 ”误差 逆 传播 算法 


“前 馈 ” 并 不 意味 着 网 
络 中 信号 不 能 向 后 传 , 而 
是 指 网 络 拓扑 结构 上 不 存 
在 环 或 回路 ; 参见 5.5.5 节 . 


即 神经 元 连接 的 权重 . 


亦 称 “ 反 向 传播 算法 ”. 


离散 属性 需 先 进行 处 理 : 
若 属 性 值 间 存在 “ 序 ” 关 
系 则 可 进行 连续 化 ; 否则 
通常 转化 为 上 维 向 量 , 上 为 
属性 值 数 . 参见 3.2 节 . 
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图 5.6 多 层 前 馈 神 经 网 络 结 构 示 意图 


networks), 其 中 输入 层 神 经 元 接收 外 界 输入 , 隐 层 与 输出 层 神 经 元 对 信和 号 进行 
INL, 最 终结 果 由 输出 层 神 经 元 输出 ; 换言之 , 输入 层 神 经 元 仅 是 接受 输入 , 不 
进行 函数 处 理 , 隐 层 与 输出 层 包含 功能 神经 元 . 因此 , 图 5.6(a) 通常 被 称 为 “两 
层 网 络 ”. 为 避免 上 疏 义 , 本 书 称 其 为 “ 单 隐 层 网 络 ”. 只 需 包 含 隐 层 , 即 可 称 
为 多 层 网 络 . 神经 网 络 的 学 习 过 程 , 就 是 根据 训练 数据 来 调整 神经 元 之 间 的 
“连接 权 ” (connection weight) 以 及 每 个 功能 神经 元 的 阔 值 ; 换言之 , 神经 网 
络 “ 学 ”到 的 东西 , 看 涵 在 连接 权 与 浆 值 中 . 


5.3 误差 逆 传 播 算 法 


多 层 网 络 的 学 习 能 力 比 单 层 感知 机 强 得 多 . 欲 训练 多 层 网 络 , 式 (5.1) 的 
简单 感知 机 学 习 规则 显然 不 够 了 , 需要 更 强大 的 学 习 算 法 . 误差 逆 传 播 (error 
BackPropagation, 简称 BP) 算 法 就 是 其 中 最 杰出 的 代表 , 它 是 迄今 最 成 功 的 神 
经 网 络 学 习 算法 . 现实 任务 中 使 用 神经 网 络 时 , 大 多 是 在 使 用 BP 算法 进行 训 
练 . 值得 指出 的 是 , BP 算法 不 仅 可 用 于 多 层 前 馈 神 经 网 络 , 还 可 用 于 其 他 类 型 
的 神经 网 络 , 例如 训练 递归 神经 网 络 [Pineda, 1987]. 但 通常 说 “BP 网 络 ” 时 ， 
一 般 是 指 用 BP 算法 训练 的 多 层 前 馈 神经 网 络 . 

下 面 我 们 来 看 看 BP 算法 究竟 是 什么 样 . 给 定 训练 集 D = {(a1,y1), 
(£2, Y2),---,(Lm,Ym)}, Ti E RI, y; € R!, 即 输入 示例 由 d 个 属性 描述 , 输出 / 
维 实 值 向 量 . 为 便于 讨论 , 图 5.7 给 出 了 一 个 拥有 d 个 输入 神经 元 、! 个 输出 神 
经 元 、g 个 隐 层 神经 元 的 多 层 前 馈 网 络 结构 , 其 中 输出 层 第 j 个 神经 元 的 阔 值 
用 9; 表示 , KEE h 个 神经 元 的 阔 值 用 ys 表示 . 输入 层 第 i 个 神经 元 与 隐 层 第 
h 个 神经 元 之 间 的 连接 权 为 vin BAB h 个 神经 元 与 输出 层 第 j 个 神经 元 之 间 
的 连接 权 为 wn. 记 隐 层 第 h 个 神经 元 接收 到 的 输入 为 an = TL, vint 输出 


层 第 j 个 神经 元 接收 到 的 输入 为 bi =Y wba, 其 中 bh 为 隐 层 第 个 神经 
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实际 是 对 率 马 数 ， 参见 
3.3 F. 


这 里 的 1/2 是 为 了 后 续 
求 导 的 便利 . 
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JN 
输出 层 a 
we 第 j 个 输出 神经 元 的 输入 
q 
by = X Whjbh 
h=1 
隐 层 Og 
7--w Bh IS BAB TA 
d 
On = Vina 
i=] 


输入 层 





图 5.7 BP 网 络 及 算法 中 的 变量 符号 


元 的 输出 . 假设 隐 层 和 得 出 层 神经 元 都 使 用 图 5.2(b) 中 的 Sigmoid ph aX. 


对 训练 例 (zj ye), 假定 神经 网 络 的 输出 为 加 = (GEOR, 0E), B 
H E (5.3) 
则 网 络 在 (zk, Ye) 上 的 均 方 误差 为 
1 l 
Ex= 5) a - (5.4) 


j=l 


图 5.7 的 网 络 中 有 (dt+l+1q+l 个 参数 需 确 定 : 输入 层 到 隐 层 的 wxg 
个 权 值 、 隐 层 到 输出 层 的 g x i 个 权 值 、g 个 隐 层 神经 元 的 立 值 、i 个 输出 层 神 
ARRE. BP 是 一 个 迭代 学 习 算 法 , 在 迭代 的 每 一 轮 中 采用 广义 的 感知 机 学 
习 规则 对 参数 进行 更 新 估计 , 即 与 式 (5.1) 类 似 , 任意 参数 v 的 更 新 估计 式 为 


VtU 二 Av. (55) 


下 面 我 们 以 图 5.7 中 隐 层 到 输出 层 的 连接 权 wj 为 例 来 进行 推 寻 . 


E 
ST 
BP 算法 基于 梯度 下 降 (gradient descent) KiK, 以 目标 的 负 梯 度 方 同 对 参 
数 进 行 调整 . 对 式 (5.4) 的 误差 Ey, 给 定 学 习 率 m, 有 








Awnj = 
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注意 到 wnj 先 影响 到 第 j 个 输出 层 神经 元 的 输入 值 Bj;, 再 影响 到 其 输出 值 gr, 
然后 影响 到 Ex, 有 
这 就 是 “ 链 式 法 则 ”. OE, OBE. agk Əb; 




















Bruny OGF BB; Bung (5.7) 
o 根据 6; 的 定义 , 显然 有 : 
7 E i = bp . (5.8) 
图 5.2 中 的 Sigmoid 函数 有 一 个 很 好 的 性 质 : 
f (z) = f (2)(1— f(2)), (5.9) 
于 是 根据 式 (5.4) 和 (5.3), 有 
_ OB: Ob; 
0 age ð; 
= —(95 — yF) f'(B; — 9) 
= HF — Hy} - GF) . (5.10) 


将 式 (5.10) 和 (5.8) 代 入 式 (5.7), 再 代入 式 (5.6), 就 得 到 了 BP 算法 中 关于 
wpj 的 更 新 公式 


Awnj = Ngjbh - | (5.11) | 
类 似 可 得 
Ad; = 一 7971 ， (5.12) 
Avin = NenXi , (5.13) 
Ayn = NER , (5.14) 
式 (5.13) 和 (5.14) 中 
OP | Obn 
vs is Oan 
7 OER Obi my 
vom 55 Bb =~ f (Qn — Yn) 
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AEA n= 0.1. 


停止 条 件 与 缓解 BP 过 


拟 合 的 策略 有 关 . 


第 5 章 神经 网 络 


l 
oP Pi wai Git f (an = Yh) 


l i 
are ba ( ] 一 bp) N whjg; . i (5.15) 
j=1 


学 习 率 1 E (0,1) 控制 着 算法 每 一 轮 迭代 中 的 更 新 步 长 , 若 太 大 则 容易 振 
荡 , 太 小 则 收敛 速度 又 会 过 慢 . 有 时 为 了 做 精细 调节 , 可 令 式 (5. 11) < 与 (5.12) 使 
FA m, 式 (5. 13) (5.14) 使 用 no, RERUMS. | 

图 5.8 给 出 了 BP 算法 的 工作 流程 . 对 每 个 训练 样 例 ， BP 算法 执行 TOF 
VE: 先 将 输入 示例 提供 给 输入 层 神 经 元 , 然后 逐 层 将 信号 前 传 , 直到 产生 输出 
层 的 结果 ; 然后 计算 输出 层 的 误差 (第 4-5 行 ), 再 将 误差 逆向 传播 至 隐 层 神经 


元 (第 6 行 ), 最 后 根据 隐 层 神经 元 的 误差 来 对 连接 权 和 冰 值 进行 调整 (第 7 T+). 


该 迭代 过 程 循环 进行 , 直到 达到 某 些 停止 条 件 为 止 , 例如 训练 误差 已 达到 一 个 
很 小 的 值 . 图 5.9 给 出 了 在 2 个 属性 、5 人 随 着 训练 轮 数 的 
增加 , 网 络 参 数 和 分 类 边界 的 变化 情况 . 


输入 : vl -~ (Er ye) Hee 15 


=E 

过 程 : 
，1: 在 (0,1) 范 围 内 随机 初始 Pee enna | 

2: repeat i 
for all (£k, Yk) ED de 

根据 当前 参数 和 式 (5.3) 计算 当前 样本 的 输出 Ge; 

根据 式 (5.10) 计算 输出 层 神 经 元 的 梯度 项 g;; 

- 根据 式 (5.15) 计算 隐 层 神经 元 的 梯度 项 en; 

根据 式 (5. 11)- (5. 14) 更 新 连接 权 re Vih 5 fe 0;, Yh | 
end for 


9: until 达到 停止 条 件 
输出 : 连接 权 与 阔 值 确定 的 多 层 前 馈 神 经 网 络 


5.8 误差 逆 传 播 算 法 


ee 


ny 


需 注意 的 是 , BP 算法 的 目标 是 要 最 小 化 训练 集 D 上 的 累积 误差 
Ts | 
=— ) Ee» (5.16) 
k=1 | 


但 我 们 上 面 介 绍 的 “标准 BP 算法 ”每 次 仅 针对 一 个 训练 样 例 更 新 连接 权 
FU M(B, 也 就 是 说 , 图 5.8 中 鼻 法 的 更 新 规则 是 基于 单个 的 E; 推导 而 得 . 如 
ww ai bbt.com TOOWFOFO A 





5.3 ”误差 逆 传 播 算法 


读 取 训练 集 一 遍 称 为 进 
行 了 “一 轮 ”(one round, 
亦 称 one epoch) 学 习 . 


标准 BP 算法 和 累积 BP 
算法 的 区 别 类 似 于 随机 梯 
度 下 降 (stochastic gradient 
descent, 简称 SGD) 与 标准 
梯度 下 降 之 间 的 区 别 . 


引入 正则 化 策略 的 神经 
网 络 与 第 6 章 的 SVM 已 
非常 相似 . 















desi nl Ssh 























RE 
(b) 第 504 


RE 


(a) 第 25 轮 (c) 第 100 轮 


5.9 在 2 个 属性 、5 个 样本 的 西瓜 数据 上 , BP 网 络 参数 更 新 和 分 类 边界 的 变化 情况 


果 类 似 地 推导 出 基于 累积 误差 最 小 化 的 更 新 规则 , 就 得 到 了 累积 误差 道 传 


播 (accumulated error backpropagation) 算法 . 累积 BP 算法 与 标准 BP 算法 都 


很 常用 . 一 般 来 说 , 标准 BP 算法 每 次 更 新 只 针对 单个 样 例 , 参数 更 新 得 非常 频 
ZX, 而 且 对 不 同样 例 进行 更 新 的 效果 可 能 出 现 “ 抵 消 ” 现 象 . 因此 , 为 了 达到 同 
样 的 累积 误差 极 小 点 , 标准 BP 算法 往往 需 进 行 更 多 次 数 的 迭代 . 累积 BP 算法 
直接 针对 累积 误差 最 小 化 , 它 在 读 取 整个 训练 集 D 一 裔 后 才 对 参数 进行 更 新 ， 
其 参数 更 新 的 频率 低 得 多 . 但 在 很 多 任务 中 , 累积 误差 下 降 到 一 定 程度 之 后 , HE 
一 步 下 降 会 非常 缓慢 , 这 时 标准 BP 往往 会 更 快 获得 较 好 的 解 , 尤其 是 在 训练 
SD 非常 大 时 更 明显 . | 

[Hornik et al., 1989] 证 明 , 只 需 一 个 包含 足够 多 神经 元 的 隐 层 , 多 层 前 馈 网 
络 束 能 以 任意 精度 允 近 任意 复杂 度 的 连续 函数 . 然而 , 如 何 设置 隐 层 神经 元 的 
个 数 仍 是 个 未 决 问题 , 实际 应 用 中 通常 靠 “ 试 错 法 ”(trial-by-error) 调 整 . 


正 是 由 于 其 强大 的 表示 能 力 , BP HAW ZA IWS, 其 训练 误差 持 
续 降 低 , 但 测试 误差 却 可 能 上 升 . 有 两 种 策略 常用 来 缓解 BP 网 络 的 过 拟 合 . 第 
一 种 策略 是 “ 早 停 ”(early stopping): 将 数据 分 成 训练 集 和 验证 集 , 训练 集 用 
来 计算 梯度 、 更 新 连接 权 和 浆 值 , 验证 集 用 来 估计 误差 , 大 训练 集 误差 降低 但 
验证 集 误 差 升 高 , 则 停止 训练 , 同时 返回 具有 最 小 验证 集 误差 的 连接 权 和 浆 值 . 
第 二 种 策略 是 “正则 化 ”(regularization) [Barron, 1991; Girosi et al., 1995], 其 


基本 思想 是 在 误差 目标 函数 中 增加 一 个 用 于 描述 网 络 复杂 度 的 部 分 , 例如 连接 
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增加 连接 权 与 阅 值 平方 

和 这 一 项 后 , 训练 过 程 将 
会 偏好 比较 小 的 连接 权 
Fo BAE, 使 网 络 输 出 更 加 
“光滑 ”， 从 而 对 过 拟 合 
有 所 缓解 . 


这 里 的 讨论 对 其 他 机 器 
学 习 模 型 同样 适用 . 


感知 机 更 新 规则 式 (5.1) 
和 BP 更 新 规则 式 (5.11)- 
(5.14) 都 是 基于 梯度 下 降 . 


Bom 神经 网 络 


权 与 阔 值 的 平方 和 . 仍 令 Er 表示 第 个 训练 样 例 上 的 误差, wi 表示 连接 权 和 


A, 则 误差 目标 函数 (5.16) 改变 为 


a m 
= 一 》， 1— Swi | 
E = Ek + ( a) - Wi , (5 17) 


k=1 


其 中 入 e (0,1) 用 于 对 经 验 误差 与 网 络 复杂 度 这 两 项 进行 折 中 , 向 通过 交叉 验 


”证 法 来 估计 . 


5.4 全 局 最 小 与 局 部 极 小 


aA E 表示 神 经 网 络 在 训练 集 上 的 误差 , 则 它 显 然 是 关于 连接 权 w MA 
值 9 的 函数 . 此 时 , 神经 网 络 的 训练 过 程 可 看 作 一 个 参数 寻 优 过 程 , 即 在 参数 空 
间 中 , 寻找 一 组 最 优 参 数 使 得 巨 最 小 . 

我 们 常会 谈 到 两 种 “最 优 ”: “局 部 极 小 ” (local minimum) 和 “全 局 最 
小 ”(global minimum). 对 w* 和 0*, EFE € > 0 使 得 


Y (ww;0) € {(w;8) | (ww;0) — (ww; ON < e} 


”都 有 (ao;b) > E(w; 0) 成 立 , 则 (tw*;0*) 为 局 部 极 小 解 ; 车 对 参数 空间 中 的 


任意 (w; 0) WA E(w;0) > E(w*, 0*), 则 (w*; 0*) 为 全 局 最 小 解 . 直观 地 看 , 局 
部 极 小 解 是 参数 空间 中 的 某 个 点 , 其 邻 域 点 的 误差 函数 值 均 不 小 于 该 点 的 函数 
(i; 全 局 最 小 解 则 是 指 参数 空间 中 所 有 点 的 误差 函数 值 均 不 小 于 该 点 的 误差 函 
数值 . 两 者 对 应 的 E(w; 0*) 分 别称 为 误差 函数 的 局 部 极 小 值 和 全 局 最 小 值 . 

显然 , 参数 空间 内 梯度 为 零 的 点 , 只 要 其 误差 函数 值 小 于 邻 点 的 误差 函数 
值 , 就 是 局 部 极 小 点 ; 可 能 存在 多 个 局 部 极 小 值 , 但 却 只 会 有 一 个 全 局 最 小 值 
也 就 是 说 ， “全 局 最 小 ”一 定 是 “局 部 极 小 ”, 反之 则 不 成 立 . 例如 , 图 5.10 中 
有 两 个 局 部 极 小 , 但 只 有 其 中 之 一 是 全 局 最 小 . 显然 ,我 们 在 参数 寻 优 过程 中 是 
希望 找到 全 局 最 小 . 

基于 梯度 的 搜索 是 使 用 最 为 广泛 的 参数 寻 优 方 法 . 在 此 类 方法 中 , 我 们 从 
某 些 初始 解 出 发 , 迭代 寻找 最 优 参数 值 . 每 次 迭代 中 , 我 们 先 计算 误差 函数 在 当 
前 点 的 梯度 , 然后 根据 梯度 确定 搜索 方向 . 例如 , 由 于 负 梯 度 方向 是 函数 值 下 降 
最 快 的 方向 , 因此 梯度 下 降 法 就 是 沿 着 负 梯 度 方向 搜索 最 优 解 . 若 误差 函数 在 
当前 点 的 梯度 为 零 , 则 已 达到 局 部 极 小 , 更 新 量 将 为 零 , 这 意味 着 参数 的 迭代 更 


新 将 在 此 停止 . 显然 , 如 果 误 差 函 数 仅 有 一 个 局 部 极 小 , 那么 此 时 找到 的 局 部 极 
wwaibbt.cmnnnnnnn 





5.4 全 局 最 小 与 局 部 极 小 107 








5.10 全 局 最 小 与 局 部 极 小 


小 就 是 全 局 最 小 ; AT, 如 条 误差 函数 具有 多 个 局 部 极 小 , 则 不 能 保证 找到 的 解 
是 全 局 最 小 . 对 后 一 种 情形 , 我 们 称 参数 寻 优 陷入 了 局 部 极 小 , 这 显然 不 是 我 们 
所 希望 的 . 

在 现实 任务 中 , 人 们 常 采 用 以 下 策略 来 试图 “跳出 ”局 部 极 小 , 从 而 进 一 
步 接 近 全 局 最 小 : 


。 以 多 组 不 同 参 数值 初始 化 多 个 神经 网 络 , 按 标准 方法 训练 后 , 取 其 中 误差 
最 小 的 解 作 为 最 终 参 数 . 这 相当 于 从 多 个 不 同 的 初始 点 开始 搜索 , RO 
可 能 陷入 不 同 的 局 部 极 小 , 从 中 进行 选择 有 可 能 获得 更 接近 全 局 最 小 的 
结果 . 


使 用 “模拟 退火 ”(simulated annealing) 技术 [Aarts and Korst, 1989]. 
Be TU IE KE BE 2 BB A E A eS CS A BR, 从 而 有 助 
e 于 “跳出 ”局 部 极 小 . 在 每 步 迭 代 过 程 中 , 接受 “次 优 解 ”的 概率 要 随 着 
时 间 的 推移 而 逐渐 降低 , 从 而 保证 算法 稳定 . 

使 用 随机 梯度 下 降 . 与 标准 梯度 下 降 法 精确 计算 梯度 不 同 , 随机 梯度 下 降 


法 在 计算 梯度 时 加 入 了 随机 因素 . 于 是 , 即便 陷入 局 部 极 小 点 , 它 计 算出 
的 梯度 仍 可 能 不 为 零 , 这 样 束 有 机 会 跳出 局 部 极 小 继续 搜索 . 


此 外 , 遗传 算法 (genetic algorithms) [Goldberg, 1989] 也 常用 来 训练 神经 网 
络 以 更 好 地 逼近 全 局 最 小 . 需 注意 的 是 , 上述 用 于 跳出 局 部 极 小 的 技术 大 多 是 
启发 式 , 理论 上 上 尚 缺 乏 保 障 . 
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5.5 fte mihi 网 络 


神经 网 络 模型 、 算 法 繁多 , 本 节 不 能 详尽 描述 , 只 对 特别 常见 的 几 种 网 络 
稍 作 简介 . 


5.5.1 RBF 网 络 | 


=) RBF (Radial Basis Function, 4% Mj 4 K 3) A 244 [Broomhead and Lowe, 
{Re ERTRM Sy oge] 是 一 种 单 隐 层 前 馈 神 经 网 络 , EEE EO CHE A 2 TO R 
日 常见 的 RBF 设置 


是 单 隐 层 . 数 , 而 输出 层 则 是 对 隐 层 神经 元 输出 的 线性 组 合 . 假定 输入 为 d 维 向 量 xz, 输出 
为 实 值 , 则 RBF 网 络 可 表示 为 


(a) = -Dun L, Ci) (5.18) 


其 中 q 为 隐 层 神经 元 个 数 , ci 和 w 分 别 是 第 i 个 隐 层 神经 元 所 对 应 的 中 心 和 权 
E, p(x, ci) 是 径 向 基 函 数 , 这 是 某 种 沿 径 向 对 称 的 标量 函数 , 通常 定义 为 样本 
z 到 数据 中 心 ci 之 间 欧 氏 距离 的 单调 函数 . 常用 的 高 斯 径 向 基 函 数 形 如 


p(x, ci) =e pl sl . (5.19) 


[Park and Sandberg, 1991] 证 明 , 具有 足够 多 隐 层 神经 元 的 RBF 网 络 能 以 任意 
精度 逼近 任意 连续 函数 . “ 


常 采用 两 步 过 程 来 训练 RBF 网 络 : 第 一 步 , 确定 神经 元 中 心 Ci, 常用 的 
Pring RAE, 第 oe 利用 BP 算法 等 来 确定 参数 wi 和 bi. 


5.5.2 ART 网 络 


PFY (competitive learning) 是 神经 网 络 中 一 种 常用 
”策略 , 在 使 用 该 策略 时 , 网 络 的 输出 神经 元 相互 竞争 , 每 一 时 刻 仅 有 一 
争 获胜 的 神经 元 被 激活 , 其 他 神经 元 的 状态 被 抑制 . 这 种 机 制 亦 称 m 
HZ” (winner-take-all) JR Mi. 
ART (Adaptive Resonance ‘Theory, 目 适 应 i 振 理 论 ) 网 络 al dena aad 
Grossberg, 1987] 是 竞争 型 学 习 的 重要 代表 . 该 网 络 由 比较 层 、 识 别 层 、 识 别 
| ba A EA 其 中 , 比较 层 负责 接收 输入 样本 , 并 将 其 传递 给 识别 层 神 
Pigs ve ARRA 经 元 . 识别 层 每 个 神经 元 对 应 一 个 模式 类 ， 狮 经 元 数目 可 在 训练 过 程 中 动态 增 
”长 以 增加 新 的 模式 类 . 
在 接收 到 比较 层 的 输入 信号 后 ， 识别 层 神 经 元 之 间 相互 竞争 以 产生 获胜 神 
ww ai bbt. com 吕 DOODOOOO 





5.5 “其 他 常见 神经 网 络 


这 就 是 “ 胜 者 通 吃 ” 原 
则 的 体现 . 


增 量 学 习 是 指 在 学 得 模 
型 后 , 再 接收 到 训练 样 例 
时 , 仅 需 根 据 新 样 例 对 模 
型 进行 更 新 , 不 必 重 新 训 
练 整个 模型 , 并且 先 前 学 
得 的 有 效 信息 不 会 被 “ 冲 
掉 ”; 在 线 学 习 是 指 每 获 
得 一 个 新 样本 就 进行 一 次 
模型 更 新 . 显然 , 在 线 学 习 
是 增 量 学 习 的 特例 , 而 增 
量 学 习 可 视 为 “ 批 模式 ” 
(batch-mode) 的 在 线 学 习 . 


亦 称 “ 自 组 织 特征 映 
Ht” (Self-Organizing Fea- 
ture Map). Kohonen 网 络 . 
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经 元 . 竞争 的 最 简单 方式 是 , 计算 输入 向 量 与 每 个 识别 层 神经 元 所 对 应 的 模式 
类 的 代表 向 量 之 间 的 距离 , 距离 最 小 者 胜 . 获胜 神经 元 将 向 其 他 识别 层 神经 元 
发 送信 号 , 抑制 其 激活 . 若 输 入 向 量 与 获胜 神经 元 所 对 应 的 代表 向 量 之 间 的 相 
WEAF IRSA, 则 当前 输入 样本 将 被 归 为 该 代表 向 量 所 属 类 别 , 同时 , 网 络 
连接 权 将 会 更 新 , 使 得 以 后 在 接收 到 相似 输入 样本 时 该 模式 类 会 计算 出 更 大 的 
相似 度 , 从 而 使 该 获胜 神经 元 有 更 大 可 能 获胜 ; 车 相似 度 不 大 于 识别 阐 值 , 则 重 
置 模块 将 在 识别 层 增设 一 个 新 的 神经 元 , 其 代表 向 量 就 设置 为 当前 输入 向 量 . 

GAR, 识别 闹 值 对 ART 网 络 的 性 能 有 重要 影响 . 当 识 别 阔 值 较 高 时 , 输入 样 
本 将 会 被 分 成 比较 多 、 比 较 精细 的 模式 类 , 而 如 果 识 别 阔 值 较 低 , 则 会 产生 比 
较 少 、 比 较 粗略 的 模式 类 . | 

ART 比 较 好 地 缓解 了 竞争 型 学 习 中 的 “可 塑性 -稳定 性 窘境 ”(stability- 
plasticity dilemma), 可 塑性 是 指 神经 网 络 要 有 学 习 新 知识 的 能 力 , 而 稳定 性 则 
是 指 神经 网 络 在 学 习 新 知识 时 要 保持 对 旧 知 识 的 记忆 . 这 就 使 得 ART 网 络 具有 


learning). 

早期 的 ART 网 络 只 能 处 理 布尔 型 输入 数据 , 此 后 ART 发 展 成 了 一 个 算法 
族 , 包括 能 处 理 实 值 输入 的 ART2 网 络 、 结 合 模糊 处 理 的 Fuzzy ART 网 络 , 以 
及 可 进行 监督 学 习 的 ARTMAP 网 络 等 . 


5.5.3 SOM 网 络 


SOM(Self-Organizing Map, 自 组 织 映 射 ) 网 络 [Kohonen, 1982] 是 一 种 竞 
和 争 学 习 型 的 无 监督 神经 网 络 , 它 能 将 高 维 输入 数据 映射 到 低 维 空间 (通常 为 二 
维 ), 同时 保持 输入 数据 在 高 维 空间 的 拓扑 结构 , 即将 高 维 空间 中 相似 的 样本 点 
映射 到 网 络 输 出 层 中 的 邻近 神经 元 . 

如 图 5.11 Pras, SOM 网 络 中 的 输出 层 神 经 元 以 矩阵 方式 排列 在 二 维 空间 
中 , 每 个 神经 元 都 拥有 一 个 权 向 量 , 网 络 在 接收 输入 向 量 后 , 将 会 确定 输出 层 获 
胜 神 经 元 , 它 决定 了 该 输入 向 量 在 低 维 空间 中 的 位 置 . SOM 的 训练 目标 就 是 为 
每 个 输出 层 神 经 元 找到 合适 的 权 疝 量 , 以 达到 保持 拓扑 结构 的 目的 . 

SOM 的 训练 过 程 很 简单 : 在 接收 到 一 个 训练 样本 后 , 每 个 输出 层 神经 元 会 
计算 该 样本 与 自 喘 携带 的 权 回 量 之 间 的 距离 , 距离 最 近 的 神经 元 成 为 觉 争 获胜 
者 , 称 为 最 佳 匹配 单元 (best matching unit). 然后 , 最 佳 轧 配 单元 及 其 邻近 神经 
元 的 权 癌 量 将 被 调整 , 以 使 得 这 些 权 问 量 与 当前 输入 样本 的 距离 缩小 . 这 个 过 
KER BER, 直至 收敛. 
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结构 自 适 应 神经 网 络 亦 


称 “ 构 造 性 ” (construc- 


tive) 神 经 网 络 . 


5.5.2 节 介 绍 的 ART 网 
络 由 于 隐 层 神经 元 数目 可 
在 训练 过 程 中 增长 ， 因此 
也 是 一 种 结构 自 适 应 神经 
网 络 . 


第 5 章 神经 网 络 









输出 层 








WX 
BX 
输入 层 


5.11 SOM 网 络 结 构 


5.5.4 级 联 相关 网 络 


一 般 的 神经 网 络 模 型 通常 假定 网 络 结构 是 事先 固定 的 , 训练 的 日 的 龙 利 用 
训练 样本 来 确定 合适 的 连接 权 、 立 值 等 参数 . 与 此 不 同 , 结构 目 适 应 网 络 则 将 
网 络 结构 也 当 作 学 习 的 目标 之 一 , 并 希望 能 在 训练 过 程 中 找到 最 人 符合 数据 特点 
的 网 络 结构 . 级 联 相 关 (Cascade-Correlation) 网 络 [Fahlman and Lebiere, 1990] 
是 结构 目 适 应 网 络 的 重要 代表 . 


(a) 初始 状态 (b) 增加 一 个 隐 层 结 上 点 (Cc) 增加 第 二 个 隐 层 结 点 





图 5.12 级 联 相 关 网 络 的 训练 过 程 . 新 的 隐 结 点 加 入 时 , 红色 连接 权 通 过 最 大 化 新 结 
点 的 输出 与 网 络 误差 之 间 的 相关 性 来 进行 训练 . 


级 联 相 关 网 络 有 两 个 主要 成 分 : “级 联 ” 和 “相关 ”. 级 联 是 指 建立 层次 
连接 的 层级 结构 . 在 开始 训练 时 , 网 络 只 有 输入 层 和 输出 层 , 处 于 最 小 拓扑 结 
构 ; 随 看 训练 的 进行 , 如 图 5.12 所 示 , 痢 的 隐 层 神经 元 逐渐 加 入 , 从 而 创建 起 层 
级 结构 . 当 新 的 隐 层 神经 元 加 入 时 , 其 输入 站 连接 权 值 是 冻结 固定 的 . 相关 是 
指 通过 最 大 化 新 神经 元 的 输出 与 网 络 误差 之 间 的 相关 性 (correlation) 来 训练 相 
天 的 参数 . 


与 一 般 的 前 馈 神 经 网 络 相 比 , 级 联 相 关 网 络 无 需 设 置 网 络 层 数 、 隐 层 神经 
元 数目 , 且 训 练 速度 较 快 , 但 其 在 数据 较 小 时 易 陷 入 过 拟 合 . 
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5.5 ”其 他 常见 神经 网 络 


亦 称 “recursive neural 
networks” . 


从 图 5.14(a) 可 看 H, 
Boltzmann 机 是 一 种 递归 
神经 网 络 . 


Boltzmann 分 布 亦 称 

“平衡 态 ” (equilibrium) 

或 “平稳 分 布 ” (station- 
ary distribution). 
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5.5.5 Elman 网 络 | | 

与 前 馈 神 经 网 络 不 同 , “递归 神经 网 络 ”(recurrent neural networks) fà YF 
网 络 中 出 现 环形 结构 , 从 而 可 让 一 些 神经 元 的 输出 反馈 回来 作为 输入 信号 . 这 
样 的 结构 与 信息 反馈 过 程 , 使 得 网 络 在 t 时 刻 的 输出 状态 不 仅 与 + 时刻 的 输入 
BR, 还 与 + 一 1 时 刻 的 网 络 状态 有 关 , 从 而 能 处 理 与 时 间 有 关 的 动态 变化 . 

Elman 网 络 [Elman, 1990] 是 最 常用 的 递归 神经 网 络 之 一 , 其 结构 如 图 5.13 
所 示 , 它 的 结构 与 多 层 前 馈 网 络 很 相似 , 但 隐 层 神经 元 的 输出 被 反馈 回来 , 与 下 
一 时 刻 输 入 层 神 经 元 提供 的 信号 一 起 , 作为 隐 层 神经 元 在 下 一 时 刻 的 输入 . 隐 
层 神 经 元 通常 采用 Sigmoid 激活 函数 , 而 网 络 的 训练 则 第 通 过 推广 的 BP 算法 
进行 [Pineda, 1987]. 








图 5.13 Elman 网 络 结构 


5.5.6 Boltzmann 机 
神经 网 络 中 有 一 类 模型 是 为 网 络 状态 定义 一 个 “能 量 ”(energy), 能 量 
最 小 化 时 网 络 达到 理想 状态 , 而 网 络 的 训练 就 是 在 最 小 化 这 个 能 量 函 数 . 
Boltzmann 机 [Ackley et al., 1985] 就 是 一 种 “基于 能 量 的 模型 ”(energy-based 
model), 常见 结构 如 图 5.14(a) Pras, 其 神经 元 分 为 两 层 : 显 层 与 隐 层 . 显 层 用 
于 表示 数据 的 输入 与 输出 , 隐 层 则 被 理解 为 数据 的 内 在 表达 . Boltzmann 机 中 
的 神经 元 都 是 布尔 型 的 , 即 只 能 取 0、1 两 种 状态 , 状态 1 表示 激活 , 状态 0 表 
示 抑 制 . SHE s E {0,1}" 表示 %n 个 神经 元 的 状态 , wi; 表示 神经 元 i 与 j 之 间 
的 连接 权 , 0; 表示 神经 元 i BIE, 则 状态 向 量 s 所 对 应 的 Boltzmann 机 能 量 

定义 为 . 
E(s) = 一 ` ` WijSiSj = N bisi ‘ (5.20) 

i=1 j=i+1 i=l 

车 网 络 中 的 神经 元 以 任意 不 依赖 于 输入 值 的 顺序 进行 更 新 , 则 网 络 最 终 将 


达到 Boltzmann 分 布 , 此 时 状态 向 量 s 出 现 的 概率 将 仅 由 其 能 量 与 所 有 可 能 状 
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- (a) Boltzmann 机 (b) 受 限 Boltzmann 机 


图 5.14 Boltzmann 机 与 受 限 Boltzmann 机 


态 回 量 的 能 量 确定 : 
e 一 已 (s) 


(5.21) 
Boltzmann 机 的 训练 过 程 就 是 将 每 个 训练 样本 视 为 一 个 状态 癌 量 , 使 
其 出 现 的 概率 尽 可 能 大 . 标准 的 Boltzmann 机 是 一 个 全 连接 图 ， 训练 网 络 的 
复杂 度 很 高 , 这 使 其 难以 用 于 解决 现实 任务 . 现实 中 常 采用 受 限 Boltzmann 
机 (Restricted Boltzmann Machine, 简称 RBM). 如 图 5.14(b) Bras, 受 限 Boltz- 
mann 机 仅 保留 显 层 与 隐 层 之 间 的 连接 , 从 而 将 Boltzmann 机 结构 由 完全 图 简 
化 为 二 部 图 . E TEn re 


受 限 Boltzmann 机 常用 “对 比 散 度 ” (Contrastive Divergence， 简 称 
CD) 算 法 [Hinton, 2010] 来 进行 训练 假定 网 络 中 有 d 个 显 层 神经 元 和 g 
个 隐 层 神经 元 , S v Ah 分 别 表示 显 层 与 隐 层 的 状态 向 量 , 则 由 于 同一 层 内 不 
存在 连接 , 有 


P(v|h) = | [Pi |b), (5.22) 

?一 工 

P(h|v) = | | P(r; |v) (5.23) 
| =a. | 


CD 算法 对 每 个 训练 样本 v, 先 根据 式 (5.23) 计 算出 隐 层 神经 元 状态 的 概率 分 布 ， 

然后 根据 这 个 概率 分 布 采样 得 到 h; 此 后 , 类 似 地 根据 式 (5.22) 从 万 产生 v’, 再 

J v! PAE ji; 连接 权 的 更 新 公式 为 | 
Aw=n (va 一 wp ) l (5.24) 
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56 深度 学 习 


关于 学 习 器 容量 , 参见 理论 上 来 说 , 参数 越 多 的 模型 复杂 度 越 高 、“ 容 量 ”(capacity) 越 大 , KE 
| 味 着 它 能 完成 更 复杂 的 学 习 任务 . 但 一 般 情 形 下 , 复杂 模型 的 训练 效率 低 , 易 陷 
入 过 拟 合 , 因此 难以 受到 人 们 青睐 . 而 随 着 云 计算 、 大 数据 时 代 的 到 来 , 计算 

能 力 的 大 幅 提 高 可 缓解 训练 低 效 性 , 训练 数据 的 大 幅 增加 则 可 降低 过 拟 合 风险 ， 

大 型 深度 学 习 模型 中 其 Ath, Dh “REAR” (deep learning) 为 代表 的 复杂 模型 开始 受到 人 们 的 关注 . 


至 有 上 百 亿 个 参数 . © 
= 深度 学 习 模型 就 是 很 深层 的 神经 网 络 . 显然 , 对 神经 网 络 模型 ， 
容量 的 一 个 简单 办 法 是 增加 隐 层 的 数目 . 隐 层 多 了 , 相应 的 神经 元 连接 权 、 
re easy 模型 复杂 ed E ee 
前 面 我 们 谈 到 过 , 单 隐 层 的 多 层 前 馈 网 络 已 具有 很 强大 的 学 习 能 力 ; 但 从 增加 
模型 复杂 度 的 角度 来 看 , 增加 隐 层 的 数目 显然 比 增加 隐 层 神经 元 的 数目 更 有 效 ， 
因为 增加 隐 层 数 不 仅 增加 了 拥有 激活 函数 的 神经 元 数目 , 还 增加 了 激活 函数 网 
套 的 层 数 . 然而 , 多 隐 层 神经 网 络 难以 直接 用 经 典 算法 (例如 标准 BP 算法 ) 进 行 
EMU SAR Ye, 因为 误差 在 多 聊 层 内 道 传播 时 , EER “RAB” (diverge) AAEM 
学 习 模型 通常 有 八 九 层 其 稳定 状态 . 
cone 无 监督 逐 层 训练 (unsupervised layer-wise training) 是 多 隐 层 网 络 训练 的 
”有 效 手 段 , 其 基本 思想 是 每 次 训练 一 层 隐 结 点 , 训练 时 将 上 一 层 隐 结 点 的 输 
出 作为 输入 , 而 本 层 隐 结 点 的 输出 作为 下 一 层 隐 结 点 的 输入 , 这 称 为 “ 预 训 
练 ”(pre-training); 在 预 训练 全 部 完成 后 ， 再 对 整个 网 络 进行 “微调 ” (fine- 
tuning) 训 练 . 例如 , 在 深度 信念 网 络 (deep belief network, 简称 DBN) [Hinton _ 
etal., 2006] F, 每 层 都 是 一 个 受 限 Boltzmann 机 , ESM AA MABE 
RBM #8. 在 使 用 无 监督 逐 层 训练 时 , 首先 训练 第 一 层 , 这 是 关于 训练 样 
本 的 RBM 模 型 , 可 按 标 准 的 RBM 训练 ; 然后 , 将 第 一 层 预 训练 好 的 隐 结 反 视 为 
第 二 层 的 输入 结 点 , 对 第 二 层 进行 预 训练 ; …… 各 层 预 训练 完成 后 , 再 利用 BP 
算法 等 对 整个 网 络 进行 训练 | 
O FRE, “ 预 训练 + 微调 ”的 做 法 可 视 为 将 大 量 参 数 分 组 , 对 每 组 先 找到 局 
部 看 来 比较 好 的 设置 , 然后 再 基于 这 些 局 部 较 优 的 结果 联合 起 来 进行 全 局 寻 优 . 
这 样 就 在 利用 了 模型 大 量 参数 所 提供 的 自由 度 的 同时 , 有 效 地 节省 了 训练 开销 . 


另 一 种 节省 训练 开销 的 策略 是 “ 权 共 享 ”(weight sharing), Bf 让 一 组 
神经 元 使 用 相同 的 连接 权 . 这 个 策略 在 卷 积 神经 网 络 (Convolutional Neural 
Network, 简称 CNN) [LeCun and Bengio, 1995; LeCun et al., 1998] 中 发 挥 了 
重要 作用 . 以 CNN BAT T TES AB [LeCun et al., 1998], 如 图 5.15 
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近来 人 们 在 使 用 CNN 
时 常 将 Sigmoid 激活 函数 
替换 为 修正 线性 函数 


oe p 


这 样 的 神经 元 称 为 Re- 
LU(Rectified Linear Unit); 
此 外 , 汇合 层 的 操作 常 采 
用 “最 大 ” 或 “平均 ” , 
这 更 接近 于 集成 学 习 中 的 
一 些 操作 , 参见 8.4 节 . 


if £ < 0， 


otherwise, 


若 将 网 络 中 前 若干 层 处 
理 都 看 作 是 在 进行 特征 表 
T, 只 把 最 后 一 层 处 理 看 
作 是 在 进行 “分 类 ”， 则 
分 类 使 用 的 就 是 一 个 简单 
模型 . 
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图 5.15 卷 积 神经 网 络 用 于 手写 数字 识别 [LeCun et al., 1998] 


Bras, 网 络 输入 是 一 个 32x32 的 手写 数字 图 像 , 输出 是 其 识别 结果 , CNN 复合 
多 个 “ 卷 积 层 ”和 “采样 层 ” 对 输入 信和 号 进行 加 工 , 然后 在 连接 层 实现 与 输出 
目标 之 间 的 映射 . 每 个 卷 积 层 都 包含 多 个 特征 映射 (feature map), 每 个 特征 映 
射 是 一 个 由 多 个 神经 元 构成 的 “平面 ”, 通过 一 种 卷 积 滤波 器 提取 输入 的 一 种 
特征 . 例如 , 图 5.15 中 第 一 个 卷 积 层 由 6 个 特征 映射 构成 , 每 个 特征 映射 是 一 
个 28x28 的 神经 元 阵列 , 其 中 每 个 神经 元 负责 从 5x5 的 区 域 通过 卷 积 滤波 器 
提取 局 部 特征 . 采样 层 亦 称 为 “汇合 ”(pooling) 层 , 其 作用 是 基于 局 部 相关 性 
原理 进行 亚 采 样 , 从 而 在 减少 数据 量 的 同时 保留 有 用 信息 . 例如 图 5.15 中 第 一 
个 采样 层 有 6 个 14x14 的 特征 映射 , 其 中 每 个 神经 元 与 上 一 层 中 对 应 特征 映 
射 的 2x2 邻 域 相连 , 并 据 此 计算 输出 . 通过 复合 卷 积 层 和 采样 层 , 图 5.15 中 的 
CNN 将 原始 图 像 映 射 成 120 维特 征 癌 量 , 最 后 通过 一 个 由 84 个 神经 元 构成 的 
连接 层 和 输出 层 连 接 完成 识别 任务 . CNN 可 用 BP 算法 进行 训练 , 但 在 训练 中 ， 
无 论 是 卷 积 层 还 是 采样 层 , 其 每 一 组 神经 元 ( 即 图 5.15 中 的 每 个 “平面 ”) 都 是 
用 相同 的 连接 权 , 从 而 大 幅 减 少 了 需要 训练 的 参数 数目 . 


我 们 可 以 从 妃 一 个 角度 来 理解 深度 学 习 . 无 论 是 DBN 还 是 CNN, 其 多 隐 
层 扒 登 、 每 层 对 上 一 层 的 输出 进行 处 理 的 机 制 , 可 看 作 是 在 对 输入 信号 进行 
逐 层 加 工 , 从 而 把 初始 的 、 与 输出 目标 之 间 联 系 不 太 密 切 的 输入 表示 , 转化 
成 与 输出 目标 联系 更 密切 的 表示 , 使 得 原来 仅 基 于 最 后 一 层 输出 映射 难以 完 
成 的 任务 成 为 可 能 . 换言之 , 通过 多 层 处 理 , 逐渐 将 初始 的 “低层 ”特征 表示 
转化 为 “高 层 ”特征 表示 后 , 用 “简单 模 型 ” 即 可 完成 复杂 的 分 类 等 学 习 任 
务 . 由 此 可 将 深度 学 习 理 解 为 进行 “特征 学 习 ”(feature learning) 或 “表示 学 


J” (representation learning). 


以 往 在 机 器 学 习 用 于 现实 任务 时 , SE AS EG Yi HA SS BOR 


计 , 这 称 为 “特征 工程 ”(feature engineering). 众所周知 , 特征 的 好 坏 对 泛 化 性 
ww ai bbt. com DOOOO000 

















5.7 阅读 材料 


115 





2012 年 前 的 名 称 是 
IEEE Transactions on Neu- 
ral Networks. 


近来 NIPS 更 偏重 于 机 
器 学 习 . 


LMS 亦 称 Widrow-Hoff 
规则 或 6 规则 . 


能 有 至 关 重要 的 影响 , 人 类 专家 设计 出 好 特征 也 并 非 易 事 ; 特征 学 习 则 通过 机 
器 学 习 技术 自身 来 产生 好 特征 , 这 使 机 器 学 习 向 “全 自动 数据 分 析 ” 又 前 进 了 


5.7 阅读 材料 


[Haykin, 1998] 是 很 好 的 神经 网 络 教 科 书 , [Bishop, 1995] 则 偏重 于 机 器 学 
习 和 模式 识别 . 神经 网 络 领域 的 主流 学 术 期 刊 有 Neural Computation. Neural 
Networks. IEEE Transactions on Neural Networks and Learning Systems; 
主要 国际 学 术 会 议 有 国际 神经 信息 处 理 系统 会 议 (NIPS) 和 国际 神经 网 络 联 合 
会 议 (IJCNN), 区 域 性 国际 会 议 主 要 有 欧洲 神经 网 络 会 议 (ICANN) 和 亚太 神经 
网 络 会 议 (ICONIP). 

ML-P 神 经 元 模型 使 用 最 为 广泛 ， 但 还 有 一 些 神 经 元 模型 也 受到 关注 , 如 考 
虑 了 电位 脉冲 发 放 时 间 而 不 仅 是 累积 电位 的 脉冲 神经 元 (spiking neuron) 模 型 
[Gerstner and Kistler, 2002]. | | 

BP 算法 由 [Werbos, 1974] 首先 提出 , 此 后 [Rumelhart et al., 1986a,b] 重新 
发 明 . BP 算法 实质 是 LMS (Least Mean Square) 算法 的 推广 . LMS 试图 使 网 
络 的 输出 均 方 误差 最 小 化 , 可 用 于 神经 元 激活 函数 可 微 的 感知 机 学 习 ; 将 LMS 
推广 到 由 非 线 性 可 微 神 经 元 组 成 的 多 层 前 馈 网 络 , 就 得 到 BP 算法 , 因此 BP 算 
法 亦 称 广义 6 规则 [Chauvin and Rumelhart, 1995]. 

MacKay, 1992] 在 贝 叶 斯 框架 下 提出 了 自动 确定 神经 网 络 正则 化 参数 的 
方法 . [Gori and Tesi, 1992] 对 BP 网 络 的 局 部 极 小 问题 进行 了 详细 讨论 . [Yao， 
1999] 综述 了 利用 以 遗传 算法 为 代表 的 演化 计算 (evolutionary computation) 技 
术 来 生成 神经 网 络 的 研究 工作 . 对 BP 算法 的 改进 有 大 量 研 究 , 例如 为 了 提速 ， 
可 在 训练 过 程 中 自 适应 缩小 学 习 率 , 即 先 使 用 较 大 的 学 习 率 然后 逐步 缩小 , 更 


Z “SII” (trick) 可 参阅 [Reed and Marks, 1998; Orr and Müller, 1998). 

KF RBF 网 络 训练 过 程 可 参阅 [Schwenker et al., 2001]. [Carpenter and 
Grossberg, 1991] 介绍 了 ART 族 算法 . SOM 网 络 在 聚 类 、 高 维 数据 可 视 化 、 
图 像 分 割 等 方面 有 广泛 应 用 , 可 参阅 [Kohonen, 2001]. [Bengio et al., 2013] 综 
述 了 深度 学 习 方 面 的 研究 进展 . 

神经 网 络 是 一 种 难 解 释 的 “黑箱 模型 ”, 但 已 有 一 些 工作 尝试 改善 神经 
网 络 的 可 解释 性 , 主要 途径 是 从 神经 网 络 中 抽取 易于 理解 的 符号 规则 , 可 参阅 
[Tickle et al., 1998; Zhou, 2004]. 
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西瓜 数据 集 3.0 见 p.84 


http://archive.ics.uci.edu/ml/. 


”西瓜 数据 集 3.0a 见 p.89 


http://yann.lecun.com/ 
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试 述 将 线 性 函数 f (a) = rz 用 He RR TE ME LI, 
试 述 使 用 图 5.2(b) 激活 函数 的 神经 元 与 对 率 回归 的 联系 . 


“对 于 图 5.7 中 的 ui 试 推导 出 BP 算法 中 的 更 新 公式 (5.13)， 


” 试 述 式 (5.6) 中 学 习 率 的 取 值 对 神经 网 络 训练 的 影响 


试 编程 实现 标准 BP 算法 和 累积 BP 算法 , 在 西瓜 数据 集 3.0 上 分 别 
用 这 两 个 算法 训练 一 个 羊 隐 层 网 络 , 并 进行 比较 


试 设 计 一 个 BP 改进 算法 ， 能 通过 动态 调整 学 习 率 显著 提升 收敛 速度 
编程 实现 该 算法 , 并 选择 两 个 UCI 数据 集 与 标准 BP 算法 进行 实验 
比较 . 


根据 式 (5.18) 和 (5.19), 试 构造 一 个 能 解决 寞 或 问题 的 单 层 RBF 神经 ， 


网 络 . 


从 网 上 下 载 或 自己 编程 实现 SOM 网 络 , 并 观察 其 在 西瓜 数据 集 3.00 


上 产生 的 结果 


试 推导 用 于 Elman 网 络 的 BP 算法 . . 


从 网 上 下 载 或 自己 编程 实现 “个 卷 积 神经 网 络 , 并 在 手写 字符 识别 数 


据 MNIST 上 进行 实验 测试 ， 
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闵 斯 基于 1969 HRA 


RR. 


此 书 中 有 不 少 关 于 神经 
网 络 的 真知 灼 见 , 但 其 重 
要 论断 所 导致 的 后 果 ,， 对 
神经 网 络 乃 至 人 工 智 能 整 
体 的 研究 产生 了 极为 残酷 
的 影响 , 因此 在 神经 网 络 
重 又 兴起 后 , 该 书 受 到 很 
多 批判 ，1988 年 再 版 时 ， 
闵 斯 基 专 门 增加 了 一 章 以 
VERE 
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休息 一 会 儿 


小 故事 : 神经 网 络 的 几 起 几 落 

二 十 世纪 四 十 年 代 M-P 神经 元 模型 、Hebb 学 习 律 
出 现 后 , 五 十 年 代 出 现 了 以 感知 机 、Adaline 为 代表 的 一 
系列 成 果 , 这 是 神经 网 络 发 展 的 第 一 个 高 潮 期 . 不 幸 的 
Æ, MIT 计算 机 科学 研究 的 葛 基 人 蕊 文 。 风 斯 基 (Marvin 
Minsky, 1927— ) 与 Seymour Papert 在 1969 年 出 版 了 

《感知 机 》 一 书 ， 书 中 指出 , 单 层 神经 网 络 无 法 解决 非 线 
性 问题 , 而 多 层 网 络 的 训练 算法 尚 看 不 到 希望 . 这 个 论断 
直接 使 神经 网 络 研究 进入 了 “冰河 期 ”, 美国 和 苏联 均 停 止 了 对 神经 网 络 研究 
的 资助 , 全 球 该 领域 研究 人 员 纷 纷 转行 , 仅 剩 极 少数 人 坚持 下 来 . 哈佛 大 学 的 
Paul Werbos 在 1974 年 发 明 BP 算法 时 , 正 值 神经 网 络 冰 河 期 , 因此 未 受到 应 
有 的 重视 . 

1983 年 , 加 州 理工 学 院 的 物理 学 家 John Hopfield 利用 神经 网 络 , 在 旅行 商 
问题 这 个 NP 完全 问题 的 求解 上 获得 当时 最 好 结果 , 引起 了 禾 动 . 稍 后 , UCSD 
的 David Rumelhart 与 James McClelland 领导 的 PDP 小 组 出 版 了 《并 行 分 
布 处 理 : 认 知 微 结构 的 探索 》 一 书 , Rumelhart 等 人 重新 发 明了 BP 算法 , 由 于 
当时 正 处 于 Hopfield 带 来 的 兴奋 之 中 , BP 算法 迅速 走红 . 这 掀起 了 神经 网 络 
的 第 二 次 高 潮 . 二 十 世纪 九 十 年 代 中 期 , 随 着 统计 学 习 理 论 和 支持 向 量 机 的 兴 
起 , 神经 网 络 学 习 的 理论 性 质 不 够 清楚 、 试 错 性 强 、 在 使 用 中 充斥 大 量 “ 究 
门 ”(trick) 的 弱点 更 为 明显 , 于 是 神经 网 络 研究 又 进入 低谷 , NIPS 会 议 其 至 多 
年 不 接受 以 神经 网 络 为 主题 的 论文 . 

2010 年 前 后 , 随 着 计算 能 力 的 迅猛 提升 和 大 数据 的 涌现 , 神经 网 络 研究 在 

“深度 学 习 ” 的 名 义 下 又 重新 崛起 , 先是 在 ImageNet 等 若干 竞赛 上 以 大 优势 
夺冠 ,此 后 谷歌 、 百 度 、 脸 书 等 公司 纷纷 投入 巨 资 进行 研发 ,神经 网 络 迎 来 了 


次 高 潮 ， 


Expanded dition 
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第 6 章 ， 支 持 向 量 机 


6.1 间隔 与 支持 向 量 。 


给 定 训练 样本 集 D = {(@1, y1), (£2, Y2), - -< , (Em, Ym)}, yi E {-1, +1}, 分 
类 学 习 最 基本 的 想法 就 是 基于 训练 集 D 在 样本 空间 中 找到 一 个 划分 超 平面 , 将 
不 同类 别 的 样本 分 开 . 但 能 将 训练 样本 分 开 的 划分 超 平面 可 能 有 很 多 , 如 图 6.1 
所 示 , 我 们 应 该 努力 去 找到 哪 一 个 呢 ? 





图 6.1 存在 多 个 划分 超 平面 将 两 类 训练 样本 分 开 


直观 上 看 , 应 该 去 找 位 于 两 类 训练 样本 “正中 间 ” 的 划分 超 平面 , 即 图 6.1 
中 红色 的 那个 , 因为 该 划分 超 平面 对 训练 样本 局 部 扰动 的 “容忍” 性 最 好 . 例 
如 , 由 于 训练 集 的 局 限 性 或 噪声 的 因素 , 训练 集 外 的 样本 可 能 比 图 6.1 中 的 训练 
样本 更 接近 两 个 类 的 分 隔 界 , 这 将 使 许多 划分 超 平 面 出 现 错误 , 而 红色 的 超 平 
面 受 影响 最 小 . 换言之 , 这 个 划分 超 平面 所 产生 的 分 类 结果 是 最 鲁 棒 的 , 对 未 见 
示例 的 泛 化 能 力 最 强 . 
”在 样本 空间 中 , 划分 超 平面 可 通过 如 下 线性 方程 来 描述 : 


wietb=0, (6.1) 
其 中 w = (wiw... iw) 为 法 向 量 , 决定 了 超 平面 的 方向 ; b 为 位 移 项 , 决定 


了 超 平 面 与 原点 之 间 的 距离 .显然 , 划分 超 平 面 可 被 法 向 量 w 和 位 移 b 确定， 
ww ai bbt.com DO00000 
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参见 习题 51 ”下 面 我 们 将 其 记 为 (w,5). 样本 空间 中 任意 点 x 到 超 平面 (w, b) 的 距离 可 写 为 
jwta + b| ee 

=o ieee 6.2 

"= Tie oe 


假设 超 平面 (w,b) 能 将 训练 样本 正确 分 类 , 即 对 于 (tiry) € D, Hy = 
FRED (w',b') 能 将 II Tos 0 Pa: A 
HRRKLADK WE +1, WA w zi +b > 0; Æ yi 1, WA wir; +b<0. $ 


存在 缩放 变换 St Fy w 
Fa sb my b! 使 式 (6.3) 成 立 . | 


(6.3) 


如 图 6.2 所 示 , 距离 超 平面 最 近 的 这 几 个 训练 样本 点 使 式 (6.3) 的 等 号 成 立 ， 


每 个 样本 点 对 应 一 个 特 


ee 它们 被 称 为 “支持 问 量 ”(support vector), 两 个 异类 支持 问 量 到 超 平面 的 距离 
之 和 为 

6.4 

1= Tw] 6-4) 


它 被 称 为 “间隔 ”(margin). 





Ly 


图 6.2 支持 向 量 与 间隔 


RIRA “RAHM” (maximum margin) 的 划分 超 平面 ， 也 束 是 要 找 
到 能 满足 式 (6.3) 中 约束 的 参数 w Al b, 使 得 7 BK, Bill 


2 
max 


ae iai (6.5) 


s.t. yilwTei +b) 21, i=1,2,...,m. 
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6.2 “对偶 问题 


间隔 貌似 仅 与 w AK, 
但 事实 上 5b 通过 约束 隐 式 
地 影响 着 w 的 取 值 , 进而 
对 间隔 产生 影响 . 


参见 附录 B.. 
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显然 , 为 了 最 大 化 间隔 , 仅 需 最 大 化 wll t, 这 等 价 于 最 小 化 wl]. 于 是 
式 (6.5) 可 重 写 为 
i | 
min 3 lwl]? o (6.6) 
s.t. y;(w_ a; +b) Se Te 


这 就 是 支持 癌 量 机 (Support Vector Machine, 简称 SVM) 的 基本 型 . 


6.2 对 偶 问 题 
我 们 希望 求解 式 (6.6) 来 得 到 大 间隔 划分 超 平面 所 对 应 的 模型 
f(x) =wila+b, (6.7) 


其 中 内 和 是 模型 参数 ， 注意 到 式 (6.6) 本 号 是 一 个 凸 二 次 规划 (convex 
quadratic programming) 问题 , 能 直接 用 现成 的 优化 计算 包 求 解 , 但 我 们 可 
以 有 更 高 效 的 办 法 . | 

对 式 (6.6) 使 用 拉 格 朗 日 乘 子 法 可 得 到 其 “对 偶 问 题 ”(dual problem). 其 
体 来 说 , 对 式 (6.6) 的 每 条 约束 添加 拉 格 明日 乘 子 ai > 0, 则 该 问题 的 拉 格 明日 


RAO BAY 


1 m . 2 
L(w, b, a) = 5 lwll? + a Qi (1 = yi(wT zi F b)) : l (6.8) 
i=1 


其 中 a = (a1; 02;...5 Am). & L(w, b, x) X w Fb AEA Al 


-m 

w = > Xiyiti , (6.9) 
i=1 

0= > wi (6.10) 


将 式 (6.9) 代 入 (6.8), 即 可 将 L(w,b,a) FH w Ab 消去, 再 考虑 式 (6.10) 的 约 
R, 就 得 到 式 (6.6) 的 对 偶 问 题 


max ` Qi 一 > Oi YY TL ze; (6.11) 


aa com i il i= i 
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参见 附录 B.. 


如 [Vapnik, 1999] 所 述 ， 


支持 向 量 机 这 个 名 字 强 调 
了 此 类 学 习 器 的 关键 是 如 
何 从 支持 向 量 构建 出 解 ; 
同时 也 上 暗示 着 其 复杂 度 主 
要 与 支持 向 量 的 数目 有 关 . 


二 次 规划 参见 附录 B.2. 


第 6 章 支持 向 量 机 


” 解 出 a 后 , 求 出 ww 与 5 即 可 得 到 模型 


fla) = = wie aj b 


= =) ayia; e +b. = (6.12) 
i=l 


从 对 偶 问 题 (6. 11) 解 出 的 ai 是 式 (6. 8) 中 的 拉 格 朗 日 乘 子 , 它 恰 对 应 着 训 
FAS (zi,y;)， 注意 到 式 (6.6) 中 有 不 等 式 约束 , 因此 上 述 过 程 需 满足 KKT 
(Karush-Kuhn-Tucker) 条 件 , 即 要 求 


a; 20; 
—yif(e@i)-1 20; . (6.18) 
oi (yf (7 z;)—1)=0.. | 


于 是 ; 对 任意 训练 样本 (xyi), 总 有 a; = 二 0 或 yf(zi) =1. Fa; = 0, 则 该 样 
本 将 不 会 在 式 (6.12) 的 求 和 中 出 现 , 也 就 不 会 对 f(z) 有 任何 影响 ; 若 a; > 0, 
WAT yfl) = 1, 所 对 应 的 样本 点 位 于 最 大 间隔 边界 上 , 是 一 个 支持 向 量 . 
这 显示 出 支持 向 量 机 的 一 个 重要 性 质 : 训练 完成 后 , 大 部 分 的 训练 样本 都 不 需 
保留 , 最 终 模 型 仅 与 支持 向 量 有 关 . 

“那么 , 如 何 求解 式 (6.11) W? 不 难 发 现 , 这 是 一 个 二 次 规划 问题 , 可 使 用 通 
用 的 二 次 规划 算法 来 求解 ; 然而 , 该 问题 的 规模 正比 于 训练 样本 数 , 这 会 在 实际 
任务 中 造成 很 大 的 开销 . 为 了 避 开 这 个 障碍 , 人 们 通过 利用 问题 本 身 的 特性 , 提 


”出 了 很 多 高 效 算法 , SMO (Sequential Minimal Optimization) 是 A 


的 代表 [Platt， 1998]. 


SMO 的 基本 思路 是 先 固定 oi 之 外 的 所 有 参数 , 然后 求 a; 上 的 极 值 . 由 于 

存在 约束 CO ay = 0, SAE oi 之 外 的 其 他 变量 , 则 oa 可 由 其 他 变量 导出 . 

于 是 , SMO 每 次 选择 两 个 变量 a; 和 oa;, 并 固定 其 他 参数 . 这 样 , 在 参数 初始 化 
后 SMO 不 断 执行 如 下 两 个 步骤 直至 收 伍 


æ- 。 选 取 一 对 需 更 新 的 变量 Qi; 和 Qj; 
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o 固定 a 和 oj 以 外 的 参数 , 求解 式 (6.11) 获 得 更 新 后 的 ai 和 a. 


注意 到 只 需 选 取 的 a; Al a; 中 有 一 个 不 满足 KKT 条 件 (6.13), 目标 函数 就 
会 在 迭代 后 减 小 [Osuna et al., 1997]. 直观 来 看 , KKT 条 件 违背 的 程度 越 大 , 则 
变量 更 新 后 可 能 导致 的 目标 函数 值 减 幅 越 大 . 于 是 , SMO 先 选取 违背 KKT 条 
件 程度 最 大 的 变量 . 第 二 个 变量 应 选择 一 个 使 目标 函数 值 减 小 最 快 的 变量 , 但 
由 于 比较 各 变量 所 对 应 的 目标 函数 值 减 幅 的 复杂 度 过 高 , 因此 SMO 采用 了 一 
个 启发 式 : 使 选取 的 两 变量 所 对 应 样本 之 间 的 间隔 最 大 . 一 种 直观 的 解释 是 , 这 


样 的 两 个 变量 有 很 大 的 差别 , 与 对 两 个 相似 的 变量 进行 更 新 相 比 , 对 它们 进行 


更 新 会 带 给 目标 函数 值 更 大 的 变化 . : 
SMO 算法 之 所 以 高 效 , 恰 由 于 在 固定 其 他 参数 后 , 仅 优化 两 个 参数 的 过 程 
能 做 到 非常 高 效 . 具体 来 说 , 仅 考虑 ui 和 oj 时 , 式 (6.11) 中 的 约束 可 重 写 为 


QiYi + ajy; =C, a4 20, a, 20, (6.14) 
其 中 
(人 > QkYk (6.15) 
kA 


m 
是 使 > aiyi = 0 成 立 的 常数 . 用 
2 一 外 
QiYi + QjYyi; =c : (6.16) 


消去 式 (6.11) 中 的 变量 oj, 则 得 到 一 个 关于 a; 的 单 变量 二 次 规划 问题 , 仅 有 的 
约束 是 ai > 0. 不 难 发 现 , 这 样 的 二 次 规划 问题 具有 闭 式 解 , 于 是 不 必 调 用 数值 
优化 算法 即 可 高 效 地 计算 出 更 新 后 的 oi 和 ay. 
如 何 确定 偏 移 项 b 呢 ? 注意 到 对 任意 支持 向 量 (Ls, ys) HWA ys fles) = 1, 
即 站 

Ys (x: Yit] Ls + 3 =1, = (6.17) 

iES 

HP S= {i| ai > 0, i=1,2,.... m} 为 所 有 支持 向 量 的 下 标 集 . 理论 上 , 可 选 
取 任 意 支持 向 量 并 通过 求解 式 (6.17) 获 得 5, 但 现实 任务 中 常 采 用 一 种 更 鲁 棒 的 
做 法 : 使 用 所 有 支持 向 量 求解 的 平均 什 


1 

b= is] ` (o os Lamata) | (6.18) 
sES \ i€S 
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“68 ”支持 向 量 机 
6.3 Ke 


在 本 章 前 面 的 讨论 中 , 我 们 假设 训练 样本 是 线性 可 分 的 , 即 存在 一 个 划分 
超 平面 能 将 训练 样本 正确 分 类 . 然而 在 现实 任务 中 , 原始 样本 空间 内 也 许 并 不 
存在 一 个 能 正确 划分 两 类 样本 的 超 平面. 例如 图 6.3 中 的 “ 异 或 ”问题 就 不 是 
线性 可 分 的 





图 6.3 天 或 问题 与 非 线 性 映射 


对 这 样 的 问题 , 可 将 样本 从 原始 空间 映射 到 一 个 更 高 维 的 特征 罕 间 , 使 得 
样本 在 这 个 特征 空间 内 线性 可 分 . 例如 在 图 6.3 中 , 知 将 原始 的 二 维 空间 映射 
到 一 个 合适 的 三 维 空间 , 就 能 找到 一 个 合适 的 划分 超 平面 . 幸运 的 是 , 如 果 原 始 
空间 是 有 限 维 , 即 属性 数 有 限 , 那么 一 定 存 在 一 个 高 维特 征 空间 使 样本 可 分 . 

S h(x) 表示 将 a 映射 后 的 特征 向 量 , 于 是 , 在 特征 空间 中 划分 超 平面 所 对 
应 的 模型 可 表示 为 

f(x) = wex) +b, (6.19) 


其 中 w 和 6 是 模型 参数 . 类 似 式 (6.6), 有 
in > jw] (6.20) 
min 一 Iw 7 
wb 2 
s.t. ylw elz) +b) > 1, i=1,2,...,m. 


其 对 偶 问 题 是 


m mM m 
1 
max $ ai 2 2 ayyol) olas) (6.21) 
i=1 ?一 1 j=1 
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这 称 为 “ 核 技巧 ” (ker- 
nel trick). 


om 
s.t. >》 oy; =O 
i=1 


求解 式 (6.21) 涉 及 到 计算 9(zi) 9(z;), 这 是 样本 zi; 与 zj 映射 到 特征 空间 
之 后 的 内 积 . 由 于 特征 空间 维 数 可 能 很 高 , 甚至 可 能 是 无 穷 维 , 因此 直接 计算 
olx) olx) 通常 是 困难 的 . 为 了 避 开 这 个 障碍 , 可 以 设想 这 样 一 个 函数 : 


k(x, x) = ($2i), $17) = bzi) Th(2j) , (6.22) 
即 a; 与 zj 在 特征 空间 的 内 积 等 于 它们 在 原始 样本 空间 中 通过 函数 <K(.,) 计算 


的 结果 . 有 了 这 样 的 函数 , 我 们 就 不 必 直 接 去 计算 高 维 其 至 无 穷 维 特征 空间 中 
的 内 积 , 于 是 式 (6.21) 可 重 写 为 


' m m m 
1 
max >, Qi > > 2 UiAjYiYjK Li, Lj) (6.23) 
i=1 ?一 1 j=1 
m | 
s.t. > ait =a 
2 二 1 


求解 后 即 可 得 到 
f(x) = w'* d(a) +b 
= 3 asyih(ai) O(a) +b 
= > Qiyir(T, £i) +b. (6.24) 
i 


这 里 的 函数 (O) Bite “ARAA” (kernel function). (6.24) 显示 出 模型 最 


优 解 可 通过 训练 样本 的 核 函 数 展开 , 这 一 展 式 亦 称 “支持 向 量 展 式 ”(support 


vector expansion). . 
显然 , ORG oO) 的 具体 形式 , 则 可 写 出 核 函数 K(-, -). 但 在 现实 
任务 中 我 们 通 闸 不 知道 oC) 是 什么 形式 , 那么 , 合适 的 核 函 数 是 否 一 定 存 在 呢 ? 
什么 样 的 函数 能 做 核 函 数 呢 ? 我 们 有 下 面 的 定理 : 
ww ai bbt. com TOOOO00 
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证 明 可 参阅 [Schalkopf 定理 6.1 (BBM) SX AMAIA, w(.,-) EENE Xx X LNW 
and Smola, 2002]. TE NTR ae ee | | m 
函数 , 则 是 核 函 数 当 且 仅 当 对 于 任意 数据 D = {21 0a. 2m), “AAE 
阵 ”(kernel matrix) K 总 是 半 正 定 的 : 


k(£1, £1) = k(£1, £j) = k(£1, Lm) 
K= | (æg) © R(T Ej) = K(Li, Lm) 
klm 01) +++ kmit) ++ K(Lm,Lm) 


定理 6.1 表明 , 只 要 一 个 对 称 函 数 所 对 应 的 核 矩 阵 半 正 定 , 它 就 能 作为 核 
函数 使 用 .事实 上 , 对 于 一 个 半 正 定 核 矩 阵 , 总 能 找到 一 个 与 之 对 应 的 映射 
o 换言之 ,任何 一 个 核 函 数 都 隐 式 地 定义 了 一 个 称 为 “再 生 核 希 尔 伯 特 空 
R)” (Reproducing Kernel Hilbert Space, 简称 RKHS) 的 特征 空间 . 
通过 前 面 的 讨论 可 知 , 我 们 希望 样本 在 特征 空间 内 线性 可 分 , 因此 特征 空 
间 的 好 坏 对 支持 向 量 机 的 性 能 至 关 重要 . 需 注意 的 是 , 在 不 知道 特征 映射 的 形 
式 时 , 我 们 并 不 知道 什么 样 的 核 函 数 是 合适 的 , 而 核 函数 也 仅 是 隐 式 地 定义 了 
< 方 而 有 一 些 基 本 的 经 ”这 个 特征 空间 于是，“ 核 函数 选择 ”成 为 支持 向 量 机 的 最 大 变数 . 若 核 函数 


采用 线性 核 , 情况 不 明 时 ”选择 不 合适 ， URS RAS ASR BT “PAN 合适 的 特征 空间 , 很 可 能 导致 性 
可 先 尝试 高 斯 核 能 不 佳 


表 6.1 列 出 了 几 种 常用 的 核 函数 


表 6.1 常用 核 函 数 


名 称 表达 式 | 参数 
”线性 核 Kai RY) = t 
d= 1 时 退化 为 线性 核 。 ”多 项 式 核 k(xi,2;) = (al ax;)? d 之 1 为 多 项 式 的 次 数 
高 斯 核 亦 称 RBF 核 . 高 斯 核 K(x, £j) = exp (一 ll 0 > 0 为 高 斯 核 的 带宽 (width) 
拉 首 拉 斯 核 (wi, £j) = exp (一 læ:—e;l) o>0 
Sigmoid 核 kk(zi,2j) =tanh(Bzwi zj 十 0) tanh 为 双 曲 正切 函数 ,BP>0,096<0 © 


此 外 , 还 可 通过 函数 组 合 得 到 , 例如 : | 
。 若 iy 和 ko 为 核 函 数 , 则 对 于 任意 正 数 y yo, 其 线性 组 合 


TI1AI1 十 Yak2 (6.25) 
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也 是 核 函 数 ; 
e。 Ky 和 Ko 为 核 函数 , 则 核 函数 的 直 积 


vi Qka) = K1(H, zZ)Ko(a, z) (6.26) 


也 是 核 函 数 ; 
© E ki 为 核 函数 , 则 对 于 任意 函数 g(x), 


K(x, z) = g(@)K1 (x, z)g(z) (6.27) 


也 十 核 函数 . 


6.4 软 间 隅 与 正则 化 





在 前 面 的 讨论 中 , 我 们 一 直 假定 训练 样本 在 样本 空间 或 特征 空间 中 是 线性 
可 分 的 , 即 存在 一 个 超 平面 能 将 不 同类 的 样本 完全 划分 开 . 然而 , 在 现实 任务 
中 往往 很 难 确定 合适 的 核 函数 使 得 训练 样本 在 特征 空间 中 线性 可 分 ; 退 一 步 说 ， 
即便 恰好 找到 了 某 个 核 函 数 使 训练 集 在 特征 空间 中 线性 可 分 , 也 很 难 断 定 这 个 
貌似 线性 可 分 的 结果 不 是 由 于 过 拟 合 所 造成 的 . 

缓解 该 问题 的 一 个 办 法 是 允许 支持 向 量 机 在 一 些 样 本 上 出 错 . 为 此 , 要 引 
入 “ 软 间 隔 ”(soft margin) 的 概念 , 如 图 6.4 Aras. 





图 6.4 软 间隔 示意 图 . 红色 圈 出 了 一 些 不 满足 约束 的 样本 . 


其 体 来 说 , 前 向 介绍 的 支持 癌 量 机 形式 足 要 求 所 有 样本 均 满 足 约束 (6.3)， 


即 所 有 样本 都 必须 划分 正确 , 这 称 为 “ 便 间 隔 ”(hard margin), 而 软 间隔 则 是 
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对 率 损 失 是 对 率 函 数 的 
变形 ,对 率 函 数 参 见 3.3 
对 率 损 失 函 数 通常 表示 
为 biog(.),， 因 此 式 (6.33) 把 


式 (3.15) 中 的 In(-) 改写 为 


log(-). 


第 6 章 支持 向 量 机 
允许 某 些 样本 不 满足 约束 
yi(w zi +b) >1. | = (6.28) 


当然 , 在 最 大 化 间隔 的 同时 , 不 满足 约束 的 样本 应 尽 可 能 少 . 于 是 , 优化 目标 可 
写 为 


SE < 
min zol +C > to (yi (wi a; +b) — 1) , (6.29) 


i=1 


其 中 C > 0 是 一 个 常数 ， lost 是 “0/1 损 失 函 数 ” 


1, ifz <0; 
lon (2) = (6.30) 
0, otherwise. 


BR, 当 C 为 无 穷 大 时 ， 式 (6.29) 迫 使 所 有 样本 均 满 足 约 束 (6.28)， 于 是 
式 (6.29) 等 价 于 (6.6); 当 C 取 有 限 值 时 , 式 (6.29) 人 允许 一 些 样本 不 满足 约束 . 


然而 , loy1 非 凸 、 非 连续 , 数学 性 质 不 太 好 , 使 得 式 (6.29) 不 易 直 接 求解 . 于 
是 , 人们 通 弟 用 其 他 一 些 函数 来 代 蔡 Lo, WA “IRR” (surrogate loss). 
替代 损失 函数 一 般 具有 较 好 的 数学 性 质 , 如 它们 通常 是 凸 的 连续 函数 且 是 bo 
的 上 界 . 图 6.5 给 出 了 三 种 常用 的 替代 损失 函数 : 


hinge 损失 : Chinge(Z) = max(0, 1 — z) ; (6.31) 
指数 损失 (exponential loss): lezp(z) = exp(—z) (6.32) 
对 率 损 R (logistic loss): biog (z) = log(1 + exp(—z)) . (6.33) | 


若 采 用 hinge 损失 , 则 式 (6.29) 变 成 


1 ie ae , | 
min glwl? + CD max (0,1 — yi (w'a;+b)) . (6.34) 


- ¿=l 


引入 “松弛 变量 ” (slack variables) &; > 0, 可 将 式 (6.34) 重 写 为 


1 2 一 
an z w| "0 : (6.35) 
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~2)) 





图 6.5 三 种 常见 的 替代 损失 函数 : hinge 损 失 、 指 数 损 失 、 对 率 损 失 


s.t. y(w'a;, +b) >1-—& 


Gos CSS Maar m 


XE eA RER AL” 

显然 , 式 (6.35) 中 每 个 样本 都 有 一 个 对 应 的 松弛 变量 , 用 以 表征 该 样本 不 满 
足 约 束 (6.28) 的 程度 . 但 是 , 与 式 (6.6) 相 似 , 这 仍 是 一 个 二 次 规划 问题 . 于 是 , 类 
似 式 (6.8), 通过 拉 格 朗 日 乘 子 法 可 得 到 式 (6.35) 的 拉 格 朗 日 函数 


1 m 
L(w, b, a, £, p) = 5 lle” a CX & 


i=1 


eS ad (1-& — yi ( w * a; + b)) -Dm (6.36) 


2 一 工 


其 中 o; > 0, pmi > 0 是 拉 格 朗 日 乘 子 . 
S L(w, b, a, £, 4) 对 wb, &i 的 偏 导 为 零 可 得 


w = `S Yii ， (6.37) 
i=l 
m 

0 = ` iYi ， (6.38) 
i=1 

C = Qi + hi. (6.39) 
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将 式 (6.37)-(6.39) 代 入 式 (6.36) 即 可 得 到 式 (6.35) 的 对 偶 问 题 


max e 一 二 o b | (6.40) 


?一 1 j=1 


Sti. an = 0, 
i=1 


O0<a,<C, i=1,2,...,m. 


将 式 (6.40) 与 硬 间隔 下 的 对 偶 问题 (6.11) 对 比 可 看 出 , 两 者 唯一 的 差别 就 在 | 
于 对 偶 变 量 的 约束 不 同 : 前 者 是 0 < a; < C, 后 者 是 0 < a. 于 是 , 可 采用 6.2 
节 中 同样 的 算法 求解 式 (6.40); 在 引入 核 函数 后 能 得 到 与 式 (6.24) 同 样 的 支持 问 
量 展 式 . | 


类 似 式 (6.13), 对 软 间 隔 支持 向 量 机 , KKT 条 件 要 求 


wf (@i)—14+6& 20, 
Qi (vif (zi) 一 1 十 &) =0 ; 


& 20, Witi=0. 


(6.41) 


于 是 , 对 任意 训练 样本 (x; yi), BA a = 0M yif (zi) =1-&. Fa; =0, ll 
该 样本 不 会 对 f(z) 有 任何 影响 ; 若 os > 0, WYE yif (zi) = 1- é 即 该 样本 
是 支持 向 量 : 由 式 (6.39) 可 知 , Ha; < C, 则 u > 0, 进而 有 = 0, 即 该 样本 
恰 在 最 大 间隔 边界 上 ; 若 u = C, WE m = 0, 此 时 车 & < 1 则 该 样本 落 在 最 
大 间隔 内 部 , 若 &; > 1 则 该 样本 被 错误 分 类 . 由 此 可 看 出 , 软 间隔 支持 向 量 机 的 
最 终 模型 仅 与 支持 向 量 有 关 , 即 通过 采用 hinge REBIER TARE 


那么 , 能 否 对 式 (6.29) 使 用 其 他 的 敬 代 损失 函数 呢 ? 


可 以 发 现 ， 如 果 使 用 对 率 损失 函数 Clog 来 替代 式 (6.29) 中 的 0/1 损失 函数 ， 
则 几乎 就 得 到 了 对 率 回归 模型 (3.27). 实际 上 , 支持 向 量 机 与 对 率 回归 的 优化 
目标 相近 , 通常 情形 下 它们 的 性 能 也 相当 . 对 率 回归 的 优势 主要 在 于 其 输出 具 
有 自然 的 概率 意义 , 即 在 给 出 预测 标记 的 同时 也 给 出 了 概率 , 而 支持 向 量 机 的 
输出 不 具有 概率 意义 , 欲 得 到 概率 输出 需 进行 特殊 处 理 [Platt, 2000]; 此 外 , 对 
率 回 归 能 直接 用 于 多 分 类 任务 , 支持 向 量 机 为 此 则 需 进 行 推广 [Hsu and Lin, 


2002). 另 一 方面 , 从 图 6.5 可 看 出 , hinge 损失 有 一 块 “ 平 坦 ” 的 零 区 域 , 这 使 
ww ai bbt.com DUOODODODOD 





65 支持 向 量 回归 


正则 化 可 理解 为 一 种 
“ 罚 函数 法 ”， 即 对 不 希 
望 得 到 的 结果 施 以 惩罚 ， 


从 而 使 得 优化 过 程 趋向 于 


希望 目标 . 从 贝 叶 斯 估计 
的 角度 来 看 , 正则 化 项 可 


认为 是 提供 了 模型 的 先 验 


概率 . 


参见 11.4 节 . 
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得 支持 向 量 机 的 解 具有 稀疏 性 , 而 对 率 损 失 是 光滑 的 单调 递减 函数 , 不 能 导出 


类 似 文 持 疝 量 的 概念 , 因此 对 率 回 归 的 解 依赖 于 更 多 的 训练 样本 , 其 预测 开销 
更 大 . 


我 们 还 可 以 把 式 (6.29) 中 的 0/1 损失 函数 换 成 别 的 蔡 代 损失 函数 以 得 到 
其 他 学 习 模型 ,这些 模型 的 性 质 与 所 用 的 替代 函数 直接 相关 , 但 它们 具有 一 
个 共性 : 优化 目标 中 的 第 一 项 用 来 描述 划分 超 平面 的 “间隔 ”大 小 , 另 一 项 
i Of (ai), y) 用 来 表述 训练 集 上 的 误差 , 可 写 为 更 一 般 的 形式 


min Of) + CDF ed) wi), (6.42) 
其 中 Of) 称 为 “结构 风险 ”(structural risk), 用 于 描述 模型 f 的 茶 些 性 质 ; 第 
Zm Ye LF (xi), yi) 称 为 “经 验 风 险 ”(empirical risk), 用 于 描述 模型 与 训练 
数据 的 契合 程度 ; C 用 于 对 二 者 进行 折 中 . 从 经 验 风 险 最 小 化 的 角度 来 看 , Q(f) 
表述 了 我 们 希望 获得 具有 何 种 性 质 的 模型 (例如 希望 获得 复杂 度 较 小 的 模型 )， 
这 为 引入 领域 知识 和 用 户 意图 提供 了 途径 ; 另 一 方面 , 该 信息 有 助 于 削减 假设 
空间 , 从 而 降低 了 最 小 化 训练 误差 的 过 拟 合 风 险 . 从 这 个 角度 来 说 , 式 (6.42) 称 
X “EN” (regularization) 问题 , 0Q(f) 称 为 正则 化 项 , C 则 称 为 正则 化 常数 . 
Ly 范 数 (norm) 是 常用 的 正则 化 项 , 其 中 Le 范 数 wl 倾向 于 w 的 分 量 取 值 
尽量 均衡 , 即 非 零 分 量 个 数 尽量 稠密 , 而 Lo 范 数 juolle 和 Li WA wl 则 倾向 
于 的 分 量 尽 量 稀 玻 , 即 非 零 分 量 个 数 尽 量 少 . 


6.5 支持 向 量 回归 


现在 我 们 来 考虑 回归 问题 . 给 定 训练 样本 D = {(w1,y1), (2y). 
Crgn)} WC R, 项 望 学 得 一 个 形 如 式 (6.7) 的 回归 模型, EA fla) 与 y 尽 可 
能 接近 , w Alb 是 待 确定 的 模型 参数 


对 样本 (x,y), 传统 回归 模型 通常 直接 基于 模型 输出 f(x) 与 真实 输出 y 之 
间 的 差别 来 计算 损失 , SAMS f(x) Sy 完全 相同 时 , 损失 才 为 零 . 与 此 不 同 ， 
SFF M Æ El (Support Vector Regression, 简称 SVR) 假 设 我 们 能 容 妨 f(x) 与 
y 之 间 最 多 有 的 偏差 , 即 仅 当 f(x) 与 y 之 间 的 差别 绝对 值 大 于 e 时 才 计 算 损 
A. 如 图 6.6 所 示 , 这 相当 于 以 f(x) 为 中 心 , 构建 了 一 个 宽度 为 2e 的 间隔 带 , E 
训练 样本 沙 入 此 间隔 带 ， We te IE a 
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图 6.6 支持 向 量 回 归 示 意图 . 红色 显示 出 e- 间 隔 带 , 落 入 其 中 的 样本 不 计算 损失 
于 是 , SVR 问题 可 形式 化 为 


min wie J DDA, — yi) , (6.43) 


i=l 


其 中 C 为 正则 化 常数 , l 是 图 6.7 PERR e- 不 敏感 损失 (e-insensitive loss) 函数 


0 if |2| <€ ; 
nat ele (6.44) 
|z| —€, otherwise. 
闻 隔 带 两 侧 的 松弛 程度 yN 
Iruni. S| APSR Eg; 和 é&, 可 将 式 (6.43) 重 写 为 
min slwl? i ay (Ej; + &) (6.45) 
w, w,b,€5,€ t 2 一 1 


if |z| < € 


otherwise. 





图 6.7 ec- 不 敏感 损失 函数 
ww ai bbt. com P0O00000 





6.5 “支持 向 量 回归 135 


ES 
yi — f (xi) <et&, 


é>0,& 20, i=1,2,...,m. 


类 似 式 (6.36)， WIS | ABR BAA RF ui 2 0, fi > O, a > 0, âi > 0, 由 拉 
格 朗 日 乘 子 法 可 得 到 式 (6.45) 的 拉 格 朗 日 函数 


L(w, b, oo &, &, Ê, u, Ô) 
1 m A uae 
= sw tC E + &) -J miki — 2 Aiki 
© i=l i=1 i=1 


+S ai(f (wi) —yi—€-&) +X âilyi — f (wi) —€ — &) - (6.46) 
i=1 i=1 


将 式 (6.7) 代 入 , 再 令 L(w, b,a, &, €, £, u, À) 对 w, b, & ME 的 偏 导 为 零 可 得 


m 
w = N (âi re Qu) By ) (6.47) 
i=1 
m , 
0 = > _ (â; — ai) , (6.48) 
i=1 
C = ai + Hi , (6.49) 


将 式 (6.47)-(6.50) 代 入 式 (6.46), 即 可 得 到 SVR 的 对 偶 问 题 


max ` Yilâi — ai) 一 ec(Gi + ai) (6.51) 
QO i=1 
1 m m 
ae X > (âi — a4) (Gj ~ ag) arf zj 
i=1 j=1 
7 
s.t. > (âi —a;)=0, 
i=1 


0<a,,ag;<C. 


上 述 过 程 中 需 满足 KKT 条 件 , 即 要 求 
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落 在 e- 间 隔 带 中 的 样本 
都 满足 a; = 0 E â; =0. 


#68 支持 向 量 机 


Cui (Yi 一 fas = = 0's 

(6.52) 
ai; =0, && =0, 
(C = Oi )E; 二 0 ) 


(C — &)& =0. 


可 以 看 出 , 4AM f(e) -y -e-i = 0 时 oi 能 取 非 零 值 , 当 且 仅 当 
yi — f(x) - o= é; = 0 Ff â; 能 取 非 零 值 . REL, 仅 当 样本 (xi, yi) RA e- 间 
隔 带 中 , 相应 的 wm 和 âi 才能 取 非 零 值 . 此 外 , 约束 f(xi) 一 一 ce 一刀 = 二 0 和 
yi 一 了 (zi) — e — & = 0 不 能 同时 成 立 , 因此 as 和 â; 中 至 少 有 一 个 为 零 . 


将 式 (6.47) 代 入 (6.7), W SVR 的 解 形 如 


fejs 54 —a,eta+b. (6.53) 
i=1 
能 使 式 (6.53) 中 的 (â; — ay) # 0 的 样本 即 为 SVR 的 支持 问 量 , 它们 必 阔 在 


e- 间 隔 禹 之 外 . 显然 , SVR 的 支持 向 旱 仅 是 训练 样本 的 一 部 分 , 即 其 解 仍 具 有 稀 
RTE. 


由 KKT 条 件 (6.52) 可 看 出 , 对 每 个 样本 (xi, yi) WA (C 一 ai)&; = 0 H 
ail f(x) — yi — e- ĉi) =0. Fee, 在 得 到 a; 后 , HO < di < C， pe tree 


进而 有 


m 


b=yi+e— > (6 一 oa)ziz p 
?一 二 
因此 , 在 求解 式 (6.51) 得 到 ay 后 ， 理论 上 来 说 ， 可 任意 选取 满足 0 < ai < C 的 样 
本 通过 式 (6.54) 求 得 5. 实践 中 常 采 用 一 种 更 鲁 棒 的 办 法 : aN AG | 
足 条 件 0 < ai < C 的 样本 求解 b 后 取 平 均值 . 


6. 54) 


“车 考虑 特征 映射 形式 (6.19), 则 相应 的 , 式 (6.47) 将 形 如 


m 


w = X _ (âi 一 as)g(za) . 


i=1 


(6.55) 


a 55) 代 入 (6.19), 则 SVR 可 表示 为 
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6.6 BA 


证 明 参 阅 [Schdlkopf and 
Smola, 2002], 其 中 用 到 了 
关于 实 对 称 和 矩阵 正定 性 充 
BA HY Mercer 定理 . 


线性 判别 分 析 见 3.4 节 . 


f(x) = X (âi -ai)n(zzi) 十 b， (6.56) 
i=1 


其 中 (are, zj) = (wi) T(zwj) WARM. 


6.6 核 方法 


回顾 式 (6.24) 和 (6.56) 可 发 现 ， 给 定 训练 样本 {æ 41), (a2, y2),---, 
(Lm, ym)}, 若 不 考虑 偏 移 项 b, 则 无 论 SVM 还 是 SVR, 学 得 的 模型 总 能 
示 成 核 函数 k(z, zi) 的 线性 组 合 . 不 仅 如 此 , 事实 上 我 们 有 下 面 这 个 称 为 “ 表 
示 定 理 ”(representer theorem) 的 更 一 般 的 结论 : 


定理 6.2 (表示 定理 ) 令 王 为 核 函数 上 对 应 的 再 生 核 希 尔 伯 特 空间 , ||hllm 
表示 王 空 间 中 关于 万 的 范 数 , 对 于 任意 单调 递增 函数 0 : [0, 00] 一 R 和 任意 非 
负 损 失 函 数 L: R” r+ (0, oo], 优化 问题 


min F(h) = Ahle) 十 (PnP(za),P(mm)) (6.57) 


的 解 总 可 写 为 | a 
h*(x) = 》 ayn(w, zi) . (6.58) 
2 一 工 


表示 定理 对 损失 函数 没有 限制 , 对 正则 化 项 9 仅 要 求 单调 递增 , 其 至 不 要 
HO EDORA, 意味 着 对 于 一 般 的 损失 函数 和 正则 化 项 , 优化 问题 (6.57) 的 最 优 
解 p*(z) 都 可 表示 为 核 函 数 k(x, zi) 的 线性 组 合 ; 这 显示 出 核 函数 的 巨大 威力 . 

人 们 发 展 出 一 系列 基于 核 函 数 的 学 习 方 法 , 统称 为 “ 核 方 法 ”(kernel 
methods). 最 常见 的 , 是 通过 “ 核 化 ”( 即 引入 核 函数 ) 来 将 线性 学 习 器 拓展 为 
非 线性 学 习 器 . 下面 我 们 以 线性 判别 分 析 为 例 来 演示 如 何 通过 核 化 来 对 其 进 ， 
行 非 线 性 拓展 , 从 而 得 到 “ 核 线性 判别 分 析 ”(Kernelized Linear Discriminant 
Analysis, 简称 KLDA). | 


我 们 先 假设 可 通过 某 种 映射 6 : X o 下 将 样本 映射 到 一 个 特征 空间 F, 4 
后 在 下 中 执行 线性 判别 分 析 , 以 求 得 
h(x) = w G(x) . (6.59) 
ooann 


ties 
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类 似 于 式 (3.35), KLDA 的 学 习 目 标 是 


wT Sew 
max J(w) = wis? w i (6.60) 





其 中 S$ 和 S$, 4) I NAR REAR ERS E A DEN E 中 的 类 间 散 度 矩 阵 和 类 内 散 
度 矩 阵 ， 令 X 表示 第 ie {0,1} 类 样本 的 集合 , 其 样本 数 为 m; 总 样本 数 
m = mo + mi. 第 ;类 样本 在 特征 空间 下 中 的 均值 为 


pe = 元 > g(x), (6.61) 
nex, 
两 个 散 度 矩阵 分 别 为 
Sf = (pf — ph) (pf — ug)” ; (6.62) 
S$ = > > (gz) — u$) (¢(a) — wf)”. (6.63) 


通常 我 们 难以 知道 映射 6 的 具体 形式 , 因此 使 用 核 函 数 ec(z,zi) = 
(ary) har) 来 隐 式 地 表达 这 个 映射 和 特征 空间 下 .把 J(w) 作为 式 (6.57) 中 
的 损失 函数 4, 再 令 9 = 0, 由 表示 定理 , KA hæ) 可 写 为 


h(x) = > aik(zy ai (6.64) - 
i=1 | 
于 是 由 式 (6.59) 可 得 
w= >》 oaig(z . E (6.65) 
i=1 


& K c R™™™ HIRA « 所 对 应 的 核算 阵 , (K)i; = k(x x). > l; € 
{1,0}7*! 为 第 i 类 样本 的 指示 向 量 , 即 1; 的 第 7 个 分 量 为 1 当 且 仅 当 zj € Xi, 
否则 1 的 第 了 个 分 量 为 0. 再 令 


1 
fio = —K1p , | 本 (6.66) 
mo 
P 1 
bi = —K1, , | (6.67) 
my | 
5 E E yT 
; = (fo = ĝa) (fio 一 hi) ) (6.68) 
ww ai bbt. com 0000000 | 





6.7 阅读 材料 


求解 方法 参见 3.4 节 . 


线性 核 SVM 迄今 仍 是 
文本 分 类 的 首选 技术 . 一 
个 重要 原因 可 能 是 : 若 将 
每 个 单词 作为 文本 数据 的 
一 个 属性 , 则 该 属性 空间 
维 数 很 高 ,， 宛 余 度 很 大 ,其 
描述 能 力 足 以 将 不 同文 档 
 “ 打 散 ”. 关于 打 散 ,参见 
12.4 节 . 


m 是 样本 个 数 . 
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1 
N= KK -YX mififij . (6.69) 
i=0 | 
于 是 , 式 (6.60) 等 价 为 
a'Ma | 


显然 , 使 用 线性 判别 分 析 求 解 方法 即 可 得 到 a, 进而 可 由 式 (6.64) 得 到 投影 
函数 h(a). 


6.7 阅读 材料 


支持 向 量 机 于 1995 年 正式 发 表 [Cortes and Vapnik, 1995], 由 于 在 文本 分 
类 任务 中 显示 出 卓越 性 能 [Joachims, 1998], 很 快 成 为 机 器 学 习 的 主流 技术 , 并 
直接 掀起 了 “统计 学 习 ”(statistical learning) 在 2000 年 前 后 的 高 潮 . 但 实际 
上 , 支持 癌 量 的 概念 早 在 二 十 世纪 六 十 年 代 就 已 出 现 , 统计 学 习 理 论 在 七 十 年 
代 就 已 成 型 . 对 核 函数 的 研究 更 早 , Mercer 定理 [Cristianini and Shawe-Taylor, 
2000] 可 追溯 到 1909 Œ, RKHS 则 在 四 十 年 代 就 已 被 研究 , 但 在 统计 学 习 兴 起 
后 , 核 技巧 才 真正 成 为 机 器 学 习 的 通用 基本 技术 . 关于 支持 向 量 机 和 核 方法 有 
很 多 专门 书籍 和 介绍 性 文章 [Cristianini and Shawe-Taylor, 2000; Burges, 1998; 
XA 与 田 英杰 , 2009; Schölkopf et al., 1999; Schélkopf and Smola, 2002], 统 
计 学 习 理论 则 可 参阅 [Vapnik, 1995, 1998, 1999]. 

文 持 癌 量 机 的 求解 通常 是 借助 于 凸 优化 技术 [Boyd and Vandenberghe, 
2004]. 如 何 提高 效率 , 使 SVM 能 适用 于 大 规模 数据 一 直 是 研究 重点 . 对 线性 核 “ 
SVM 已 有 很 多 成 果 , 例如 基于 割 平 面 法 (cutting plane algorithm) 的 SVMPet 
具有 线性 复杂 度 [Joachims, 2006], 基于 随机 梯度 下 降 的 Pegasos 速度 甚至 更 
快 [Shalev-Shwartz et al., 2011], 而 坐标 下 降 法 则 在 稀 疏 数据 上 有 很 高 的 效率 
[Hsieh et al., 2008]. 非 线 性 核 SVM 的 时 间 复 杂 度 在 理论 上 不 可 能 低 于 O(m?), 
因此 研究 重点 是 设计 快速 近似 算法 , 如 基于 采样 的 CVM [Tsang et al., 2006]. 
基于 低 秩 逼近 的 Nystrom 方法 [Williams and Seeger, 2001]、 基 于 随机 傅 里 叶 
特征 的 方法 [Rahimi and Recht, 2007] 等 . 最 近 有 研究 显示 , 当 核 矩阵 特征 值 有 
很 大 差别 时 , Nystrom 方法 往往 优 于 随机 侍 里 叶 特 征 方法 [Yang et al., 2012]. 

支持 向 量 机 是 针对 二 分 类 任务 设计 的 , 对 多 分 类 任务 要 进行 专门 的 推广 


[Hsu and Lin, 2002], 对 带 结 构 输 出 的 任务 也 已 有 相应 的 算法 [Tsochantaridis 
ww ai bbt.com DOOOODD 
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一 致 性 亦 称 “相合 性 ”. 
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et al., 2005]. X H Æ eE BRAR t TF [Drucker et al., 1997], [Smola and 
Schölkopf, 2004] 给 出 了 一 个 较为 全 面 的 介绍 . | | 

核 函 数 直 接 决 定 了 文 持 向 量 机 与 核 方法 的 最 终 性 能 , 但 遗憾 的 是 , 核 函 数 
的 选择 是 一 个 未 决 问题 . 多 核 学 习 (multiple kernel learning) 使 用 多 个 核 函 数 并 
通过 学 习 获 得 其 最 优 凸 组 合作 为 最 终 的 核 函 数 [Lanckriet et al., 2004; Bach et 
al., 2004], 这 实际 上 是 在 借助 集成 学 习 机 制 . | 

蔡 代 损失 函数 在 机 器 学 习 中 被 广泛 使 用 但是, 通过 求解 替代 损失 
函数 得 到 的 是 否 仍 是 原 问题 的 解 ? 这 在 理论 上 称 为 替代 损失 的 “一 至 
性 ”(consistency) 问 题 . [Vapnik and Chervonenkis, 1991] 给 出 了 基于 替代 损 
失 进 行经 验 风 险 最 小 化 的 一 致 性 充 要 条 件 , [Zhang, 2004] 证 明了 几 种 常见 凸 替 
代 损失 函数 的 一 致 性 . 

SVM 已 有 很 多 软件 包 , 比较 著名 的 有 LIBSVM [Chang and Lin, 2011] 和 
LIBLINEAR [Fan et al., 2008] 等 . 
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LIBSVM JU http://www. 
csie.ntu.edu.tw/~cjlin/libsvm/. 


西瓜 数据 集 3.0a JL p.89 
的 表 4.5. 


UCI 数据 集 见 6.3 
http: //archive.ics.uci.edu/ml/. 


6.4 
6.5 
6.6 
6.7 


6.8 


6.9 


6.10* 
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试 证 明 样本 空间 中 任意 点 z 到 超 平面 (w, b) 的 距离 为 式 (6.2). 


试 使 用 LIBSVM, 在 西瓜 数据 集 3.0a 上 分 别 用 线性 核 和 高 斯 核 训练 
一 个 SVM, 并 比较 其 文 持 向 量 的 差别 . 


选择 两 个 UCI 数据 集 , 分 别 用 线性 核 和 高 斯 核 训 练 一 个 SVM, 并 与 
BP 神经 网 络 和 C4.5 决策 树 进行 实验 比较 . | 


试 讨论 线性 判别 分 析 与 线性 核 支 持 向 量 机 在 何 种 条 件 下 等 价 . 


试 述 高 斯 核 SVM 与 RBF 神经 网 络 之 间 的 联系 . 


AT SVM 对 噪声 敏感 的 原因 . 
试 给 出 式 (6.52) 的 完整 KKT 条 件 . 


以 西瓜 数据 集 3.00 的 “密度 ”为 输入 ，“ 含 糖 率 ” 为 输出 , 试 使 用 
LIBSVM 训练 一 个 SVR. 


试 使 用 核 技巧 推广 对 率 回 归 , 产生 “核对 率 回归 ”. 


试 设计 一 个 能 显著 减少 SVM 中 支持 向 量 的 数目 而 不 显著 降低 泛 化 性 


能 的 方法 . 
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SVM 的 确 与 神经 网 络 有 
密切 联系 : 若 将 隐 层 神经 
元 数 设 置 为 训练 样本 数 ， 
且 每 个 训练 样本 对 应 一 
个 神经 元 中 心 , 则 以 高 斯 
径 向 基 函 数 为 激活 函数 的 
RBF 网 络 ( 参 见 5.5.1 节 ) 恰 
与 高 斯 核 SVM 的 预测 函 
数 相 同 . 
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小 故事 : 统计 学 习 理 论 之 父 弗 拉 基 米尔 。 瓦 普 尼 克 

弗 拉 基 米 尔 。 瓦 普 尼 克 (Vladimir N. Vapnik, 1936 一 ) 
是 杰出 的 数学 家 、 统 计 学 家 、 计 算 机 科学 家 . 他 出 生 于 苏 
联 , 1958 年 在 乌兹别克 国立 大 学 获 数 学 硕士 学 位 , 1964 年 
在 莫斯科 控制 科学 学 院 获 统计 学 博士 学 位 , 此 后 一 直 在 该 校 
工作 并 担任 计算 机 系 主任 . 1990 年 (苏联 解体 的 前 一 年 ) 他 
离开 苏联 来 到 新 泽 西 州 的 美国 电话 电报 公司 贝尔 实验 室 工作 , 1995 RRT 

最 初 的 SVM 文章. 当时 神经 网 络 正当 红 , 因此 这 篇 文章 被 权威 期 刊 Machine 

Learning 要 求 以 “支持 向 量 网 络 ” 的 名 义 发 表 . 

实际 上 , 瓦 普 尼克 在 1963 年 就 已 提出 了 支持 向 量 的 概念 ,1968 年 他 与 另 
一 位 苏联 数学 家 A. Chervonenkis 提出 了 以 他 们 两 人 的 姓氏 命名 的 “VC E”, 
1974 年 又 提出 了 结构 风险 最 小 化 原则 , 使 得 统计 学 习 理 论 在 二 十 世纪 七 十 年 代 
就 已 成 型 . 但 这 些 工作 主要 是 以 俄 文 发 表 的 , 直到 瓦 普 尼 克 随 着 东欧 剧变 和 苏 
联 解 体 导致 的 苏联 科学 家 移民 潮 来 到 美国 , 这 方面 的 研究 才 在 西方 学 术 界 引起 
重视 , 统计 学 习 理 论 、 支 持 向 量 机 、 核 方法 在 二 十 世纪 末 大 红 大 紫 . 

瓦 普 尼 克 2002 年 离开 美国 电话 电报 公司 加 入 普林斯顿 的 NEC 实验 室 ， 
2014 年 加 盟 脸 书 (Facebook) 公 司 人 工 智 能 实验 室 . 1995 年 之 后 他 还 在 伦敦 大 





学 、 哥 伦比 亚 大 学 等 校 任教 授 . 据说 瓦 普 尼克 在 苏联 根据 一 本 字典 自学 了 英语 


及 其 发 音 . 他 有 一 名 名 言 被 广 为 传 诵 : “Nothing is more practical than a good 
theory.” 
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决策 论 中 将 “期 望 损 
失 ” 称 为 “风险 ”(risk) . 


错误 率 对 应 于 0/1 损失 
函数 , 参见 第 6 章 . 


7.1 贝 叶 斯 决策 论 


贝 叶 斯 决策 论 (Bayesian decision theory) 是 概率 框架 下 实施 决策 的 基本 方 
法 . 对 分 类 任务 来 说 , 在 所 有 相关 概率 都 已 知 的 理想 情形 下 , 贝 叶 斯 决策 论 考虑 
如 何 基于 这 些 概 率 和 误 判 损失 来 选择 最 优 的 类 别 标记 . 下 面 我 们 以 多 分 类 任务 
为 例 来 解释 其 基本 原理 . | 


假设 有 N 种 可 能 的 类 别 标记 , 即 2 = {c1,c2,...,cen}, Xi 是 将 一 个 真实 
标记 为 cj 的 样本 误 分 类 为 c; 所 产生 的 损失 . 基于 后 验 概率 P(ci | z) 可 获得 将 
样本 z 分 类 为 c; 所 产生 的 期 望 损失 (expected loss), 即 在 样本 a 上 的 “条 件 风 


fr” (conditional risk) 
N 
Reate) = J Aig P(Gj | @) . (7.1) 
j=l 


BATES ESR TALE EM h: YOY URIME RR ie 
R(h) = Ey [R (h(a) | æ)] . (7.2) 


显然 , 对 每 个 样本 z, E h BERL TE R(A(@) | x), 则 总 体 风险 Rh) 也 
将 被 最 小 化 . 这 就 产生 了 贝 叶 斯 判定 准则 (Bayes decision rule): 为 最 小 化 总 体 
风险 , 只 需 在 每 个 样本 上 选择 那个 能 使 条 件 风 险 R(c | z) 最 小 的 类 别 标记 , 即 


h*(a) = arg min R(c | æ) , (7.3) 
CEJ7 l 


此 时 , h* BRA 贝 叶 斯 最 优 分 类 器 (Bayes optimal classifier), 与 之 对 应 的 总 体 风 
险 R(h*) 称 为 贝 叶 斯 风险 (Bayes risk). 1 一 .R(h*) 反映 了 分 类 器 所 能 达到 的 最 


”好 性 能 , 即 通过 机 器 学 习 所 能 产生 的 模型 精度 的 理论 上 限 . 


具体 来 说 , 硝 目标 是 最 小 化 分 类 错误 率 , 则 误 判 损失 Xij 可 写 为 
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注意 , 这 只 是 从 概率 框 
架 的 角度 来 理解 机 器 学 习 ; 
事实 上 很 多 机 器 学 习 技 术 
无 须 准 确 估 计 出 后 验 概率 
就 能 准确 进行 分 类 ， 


P(w) 对 所 有 类 标记 均 
相同 . 


为 便于 讨论 , 我 们 假设 
所 有 属性 均 为 离散 型 .对 
连续 属性 ,可 将 概率 质量 
函数 P(-) 换 成 概率 密度 函 
* K p(-). 


7 贝 叶 斯 分 类 器 


0，ifi=j; 
X= (7.4 
| d t otherwise, a ; 
此 时 条 件 风险 i 
: R(e|a) i (7.5) 
于 是 , 最 小 化 分 类 错误 率 的 贝 叶 斯 最 优 分 类 器 为 
h* (x) = arg max P(c | æ) , (7.6) 
cey 


即 对 每 个 样本 x, 选择 能 使 后 验 概率 P(e | x) 最 大 的 类 别 标记 . 

不 难看 出 , 欲 使 用 贝 叶 斯 判定 准则 来 最 小 化 决策 风险 , 首先 要 获得 后 验 概 
率 P(c | x). 然而 , 在 现实 任务 中 这 通常 难以 直接 获得 . 从 这 个 角度 来 看 , 机 
器 学 习 所 要 实现 的 是 基于 有 限 的 训练 样本 集 尽 可 能 准确 地 估计 出 后 验 概率 
P(c| x). 大 体 来 说 , 主要 有 两 种 策略 : 给 定 r, 可 通过 直接 建 模 P(c | x) 来 
预测 c, 这 样 得 到 的 是 “判别 式 模型 ”(discriminative models); 也 可 先 对 联合 
概率 分 布 P(z,c) 建 模 , 然后 再 由 此 获得 P(c | x), 这 样 得 到 的 是 “生成 式 模 
型 ”(generative models). 显然 , 前 面 介 绍 的 决策 树 、BP 神经 网 络 、 支 持 向 量 
机 等 , 都 可 归 入 判别 式 模型 的 范畴 . 对 生成 式 模 型 来 说 , 必然 考虑 





P(e |a) = ed (7.7) 
基于 贝 叶 斯 定理 ， P(c| z) 可 写 为 
Peja) = Sot (7.8) 


其 中 , P(e) 是 类 “ 先 验 ” (prior) 概 率 ; P(x | c) 是 样本 x 相对 于 类 标记 c 的 类 
条 件 概率 (class-conditional probability), RIKA “N4” (likelihood); P(z) 是- 
用 于 归 一 化 的 “证 据 ”(evidence) 因 子 . 对 给 定 样 本 x, 证 据 因 子 P(z) 与 类 标 
记 无 关 , 因此 估计 P(e | z) 的 问题 就 转化 为 如 何 基于 训练 数据 DD 来 估计 先 验 


P(c) AUB P(x | c). 
类 先 验 概率 P(c) 表达 了 样本 空间 中 各 类 样本 所 器 的 比例 , 根据 大 数 定律 ， 
当 训 练 集 包含 充足 的 独立 同 分 布 样本 时 , P(c) 可 可 通过 各 类 村 本 出 现 on 


行 估计 . 


对 类 条 件 概率 P(z | g 来 说 , 由 于 它 涉及 关于 za 所 有 属 性 的 联合 概率 ， 直 
ww ai bbt. com NN 00000 | 





7.2 极 大 似 然 估计 


参见 7.3 节 . 


连续 分 布下 为 概率 密度 
HFK p(z |c). 


从 二 十 世纪 二 三 十 年 代 
开始 出 现 了 频率 主义 学 
派 和 贝 叶 斯 学 派 的 争论 ， 
至 今 仍 在 继续 . 两 派 在 很 
多 重要 问题 上 观点 不 同 ， 
甚至 在 对 概率 的 基本 解 
释 上 就 有 分 歧 . 有 兴趣 的 
读者 可 参阅 [Efron，2005; 
Samaniego, 2010]. 


亦 称 “ 极 大 似 然 法 ”. 
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接 根据 样本 出 现 的 频率 来 估计 将 会 遇 到 严重 的 困难 . 例如 , 假设 样本 的 a 个 属 
性 都 是 二 值 的 , 则 样本 空间 将 有 24 种 可 能 的 取 值 , 在 现实 应 用 中 , 这 个 值 往往 
远大 于 训练 样本 数 m, 也 就 是 说 , 很 多 样本 取 值 在 训练 集中 根本 没有 出 现 , HE 
接 使 用 频率 来 估计 P(z | c) 显然 不 可 行 , 因为 “未 被 观测 到 ”与 “出 现 概率 为 


零 ” 通 常 是 不 同 的 . 


7.2 极 大 似 然 估计 


估计 类 条 件 概 率 的 一 种 常用 策略 是 先 假定 其 具有 某 种 确定 的 概率 分 布 形 
R, 再 基于 训练 样本 对 概率 分 布 的 参数 进行 估计 . 具体 地 , 记 关 于 类 别 c 的 类 条 
件 概率 为 P(z |c), 假设 P(x | c) 具有 确定 的 形式 并 且 被 参数 向 量 0. 唯一 确定 ， 
则 我 们 的 任务 就 是 利用 训练 集 D 估计 参数 0。 为 明确 起 见 , 我 们 将 P(e | c) 记 
为 P(x | 8e). 

事实 上 , 概率 模型 的 训练 过 程 就 是 参数 估计 (parameter estimation) 过 程 . 
对 于 参数 估计 , 统计 学 界 的 两 个 学 派 分 别提 供 了 不 同 的 解决 方案 : 频率 主义 学 
派 (Frequentist) 认 为 参数 虽然 未 知 , 但 却 是 客观 存在 的 固定 值 , 因此 , 可 通过 优 
化 似 然 函 数 等 准则 来 确定 参数 值 ; 贝 叶 斯 学 派 (Bayesian) 则 认为 参数 是 未 观察 


到 的 随机 变量 , 其 本 身 也 可 有 分 布 , 因此 , 可 假定 参数 服从 一 个 先 验 分 布 , 然后 


基于 观测 到 的 数据 来 计算 参数 的 后 验 分 布 . 本 节 介 绍 源 自 频率 主义 学 派 的 极 大 
似 然 估计 (Maximum Likelihood Estimation, 简称 MLE), 这 是 根据 数据 采样 来 
估计 概率 分 布 参 数 的 经 典 方法 . | 

& De 表示 训练 集 D 中 第 c 类 样本 组 成 的 集合 , 假设 这 些 样本 是 独立 同 分 
布 的 , 则 参数 9。 对 于 数据 集 De 的 似 然 是 


P(De | 0.) = II P(x | 0.) i (7.9) 
TEDe ; 
对 O. 进行 极 大 似 然 估 计 , 就 是 去 寻找 能 最 大 化 似 然 P(D。 | 0.) 的 参数 值 9.. E 
WEE, 极 大 似 然 估计 是 试图 在 6, 所 有 可 能 的 取 值 中 , 找到 一 个 能 使 数据 出 现 
的 “可 能 性 ”最 大 的 值 . 
式 (7.9) 中 的 连 乘 操作 易 造 成 下 溢 , 通常 使 用 对 数 似 然 (log-likelihood) 


~ LL(0.) =log P(De| Oc) | 


= >》 log P(x | 4.) , (7.10) 
D 


gEDe 
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人 /为 正 态 分 布 , 参见 附 
录 C.1.7. 


基于 有 限 训练 样本 直接 ， 


估计 联合 概率 , 在 计算 上 
将 会 遭遇 组 合 爆炸 问题 ， 
在 数据 上 将 会 遭遇 样本 稀 
BPR: 属性 数 越 多 , 问题 


第 7 章 贝 叶 斯 分 类 器 
此 时 参数 9 的 极 大 似 然 估计 Ô, 为 


6, = arg max LL(0.) . o (7.11). 
Oc 


例如 , 在 连续 属性 情形 下 , 假设 概率 密度 函数 p(x | c) ~ N (pe, o2), WEB 
je 和 2 的 极 大 似 然 估计 为 








1 | 
He = ° | ` r 》 (7.12) 
el RED 
ô? = — X (@- fic) (@ — ĝe)” . (7.13) 
Da TEDLe 


也 就 是 说 , 通过 极 大 似 然 法 得 到 的 正 态 分 布 均值 就 是 样本 均值 , 方差 就 是 
(x 一 fic) (@ — fic)? 的 均值 , 这 显然 是 一 个 符合 直觉 的 结果 . 在 离散 属性 情形 下 
也 可 通过 类 似 的 方式 估计 类 条 件 概率 . 

. 需 注 意 的 是 , 这 种 参数 化 的 方法 虽 能 使 类 条 件 概率 估计 变 得 相对 简单 , 但 
估计 结果 的 准确 性 严重 依赖 于 所 假设 的 概率 分 布 形 式 是 否 符合 潜在 的 真实 数 
据 分 布 . 在 现实 应 用 中 ， 欲 做 出 能 较 好 地 接近 潜在 真实 分 布 的 假设 , 往往 需 在 一 
定 程度 上 利用 关于 应 用 任务 本 身 的 经 验 知识 ， Sh “猜测 ” e 
分 布 形式 , 很 可 能 产生 误导 EWER. 


7.3 ;朴素 由 了 斯 分 类 器 


不 难 发 现 , 基于 贝 叶 斯 公式 (7.8) 来 估计 后 验 概率 P(e | z) 的 主要 困难 在 于 : 

类 条 件 概 率 P(z | c) 是 所 有 属 性 上 的 联合 概率 ， 难以 从 有 限 的 训练 样本 直接 

估计 而 得 . 为 避 开 这 个 障碍 , 朴素 贝 叶 斯 分 类 器 (naive Bayes classifier) 采 用 了 

“属性 条 件 独立 性 假设 ”(attribute conditional independence assumption): 对 

BAJI, 假设 所 有 属 性 相互 独立 . 换言之 , 假设 每 个 属性 独立 地 对 分 类 结果 发 
生 影 啊 . 


基于 属性 条 件 独立 性 假设 , 子 R(T. g) 可 重 与 为 





, d | 
Pela) = TOTEI _ FO TT Pte ie), (7.14) 
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a REALS UE 其 中 4 为 属性 数目 ,zi; 为 > 在 第 ; 个 属性 上 的 取 值 

泽 = 青 绿 ”， 为 便于 讨论 ， ? ia E E 7 6) 的 贝 时 斯 判定 准 风 
在 1 六 明 确 时 wae 。 ”由 于 对 所 有 类 别 来 说 P(e) 相同 , 因此 基于 式 (7.6) 的 贝 叶 斯 判定 准则 有 
们 用 zi 表示 第 i 个 属性 


对 应 的 变量 (如 “色泽 ”) ae 

AM He AA oe 在 第 | h(x) = argmax P(c) | | P(2i lo) ， (7.15) 
i 个 属性 上 的 取 值 (如 “ 青 cEY i=1 

绿 ” É 


这 就 是 朴素 贝 叶 斯 分 类 器 的 表达 式 . 

显然 , 朴素 贝 叶 斯 分 类 器 的 训练 过 程 就 是 基于 训练 集 D 来 估计 类 先 验 概率 
P(c), 并 为 每 个 属性 估计 条 件 概率 P(zi | 0). 

令 De 表示 训练 集 D 中 第 c 类 样本 组 成 的 集合 , 若 有 充足 的 独立 同 分 布 样 
本 , 则 可 容易 地 估计 出 类 先 验 概率 


_ |Del 


PC) = D 





(7.16) 
对 离散 属性 而 言 , Doe, 表示 De 中 在 第 i 个 属性 上 取 值 为 zx 的 样本 组 成 的 
合 , 则 条 件 概率 P(zi | c) 可 估计 为 


|De s; | 
|De 





Ar E (717) 


对 连续 属性 可 考虑 概率 密度 函数 , 假定 plz | 0) ~ N (bo, 02), 其 中 bos M 02; 
分 别 是 第 e 类 样本 在 第 ;i 个 属性 上 取 值 的 均值 和 方差 , 则 有 


| 1 Ti — He,i 2 
parle) = R exp ezer) l (7.18) 


下 面 我 们 用 西瓜 数据 集 3.0 训练 一 个 朴素 贝 叶 斯 分 类 器 , 对 测试 例 “ 测 
3.0 见 p.84 1” 进行 分 类 : 





编写 ”色泽 WEË WE 纹理 R WAR ZE MK WJ 
测 1 青绿 BA 浊 啊 清晰 E 硬 滑 0.697 0.460 ? 


首先 估计 类 先 验 概率 P(c), 显然 有 


PEK = 35) = = ~ 0.471 , 


PODR =f) = Z ~ 0.529 . 
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然后 , 为 每 个 属性 估计 条 件 概 率 P(zi | c): 
注意 ， 当 样本 数目 足够 | 


多 时 才能 进行 有 意义 的 概 E 
REPRESS Ppa = PUER = WAR I = A) = 一 0375 
一 个 简单 的 演示 . i E 、 3 
Paga = P(E = FA | HEM = 否 ) = 5 © 0.333 ， 
Peg = PORE = Wet | 好 瓜 = 是 ) = > = 0.375 , 
Psst = PORA = KBA | HEM = T) = 5 = 0.333, 
Pame = P(E = 浊 响 | 好 瓜 = JB) = Ê = 0.750 , 
Papas = PRE = 浊 啊 | 好 瓜 = 否 ) = 5 0.444 ， 
Pame = 已 (纹理 = 清晰 | 好 瓜 = Æ) = < = 0.875 , 
Pamas = PRHE = 清晰 | 好 瓜 = 否 ) = = 0.222 , 
Pug = PORR = MK | 好 瓜 = 是 ) = ; = 0.750 , 
Pugs = P( 脐 部 = 凹陷 | 好 瓜 = 否 ) = 0.222 , 
Panja = PORI = BER | 好 瓜 一 是 ) = 5 = 0.750 , 
| Powe = P (il = 硬 滑 | 好 瓜 = 否 ) = 2 x 0.667 , 


9 
PD 密度 : 0.697| 是 二 P( 密 度 = 0.697 | 好 瓜 = 是 ) 


1 (0.697 — 二 | , 
= ———__ exp [ -_ } & 1.959, 
P00 ( 2.0.1292 


Pa: 0.697| 否 = P( 密 度 = 0.697 | 好 瓜 = 7) 


2 sep _ (0.697 — 0.496)? 
V2 + 0.195 2 - 0.195? 


o Pay: 0.460| 是 = PADER = 0.460 | 好 瓜 = 是 ) 


1 (0.460 — oiy 
Se a | Us ; 
ro ( 2-0.1012 


也 含 糖 : 0.460|75 = 2( 含 糖 率 = 0.460 | 好 瓜 = F) 


ER 人 
oor ode 2.0.1082 _ 


= wwaibbt.comnnnnnnD 


) ~ 1.203, — 


) ~ 0.066 . 
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实践 中 常 通过 取 对 数 的 
方式 来 将 “ 连 乘 ”转化 为 


“ 连 加 ” 以 避免 数值 下 洪 . 
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P( 好 凤 = Æ) x Peaje X Peaje X Pume X Pame X Pu 陷 | 是 
X 十 便 滑 | 是 X 了 密度 : 0.697| 是 X Pare: 0.460| 是 ™ 0-038 , 
P( 好 凡 = A) x Paaa X Pena X Pamja X Pama X Puga 
x Pama X Pape: 0.697| 否 X Pag: 0.460| 否 © 6.80 x 107° . 
由 于 0.038 > 6.80 x 107°, 因此 , 朴素 贝 叶 斯 分 类 器 将 测试 样本 “ 测 1” 判 别 为 
“好 瓜 ” l l 


需 注意 , 若 某 个 属性 值 在 训练 集中 没有 与 某 个 类 同时 出 现 过 , 则 直接 基于 
式 (7.17) 进 行 概率 估计 , 再 根据 式 (7.15) 进行 判别 将 出 现 问题 . 例如 , 在 使 用 本 


” 瓜 数 据 集 3.0 训练 朴素 贝 叶 斯 分 类 器 时 , 对 一 个 “ 敲 声 = 清脆 ”的 测试 例 , 有 


月 


ee 0 
Pama = PCOS 三 清脆 | 好 凡 = 2) = = = 0, 


由 于 式 (7.15) 的 连 乘 式 计算 出 的 概率 值 为 零 , 因此 , 无 论 该 样本 的 其 他 属性 是 什 
A, 哪怕 在 其 他 属性 上 明显 像 好 瓜 , 分 类 的 结果 都 将 是 “好 瓜 = 否 ”, 这 显然 不 
太 合 理 . | 

为 了 避免 其 他 属性 携带 的 信息 被 训练 集中 未 出 现 的 属性 值 “ 抹 去 ”， 
在 估计 概率 值 时 通常 要 进行 “平滑 ”(smoothing), BA “HME 
iE” (Laplacian correction). 具体 来 说 , S N 表示 训练 集 D 中 可 能 的 类 别 
数 ,NN; 表示 第 i 个 属性 可 能 的 取 值 数 , 则 式 (7.16) 和 (7.17) 分 别 修正 为 








sz  |De| +1 
PO= DIN i (7.19) 
D | = |De,x;| leas 
P(a2 |e) = ioe (7.20) 
例如 , 在 本 节 的 例子 中 , 类 先 验 概率 可 估计 为 
py 8t1_ 5 ay 9+1 
PRR a ee ee 
AAS, Pagef Page 可 估计 为 
D D X == =i 3+1 
Prag = PEF = a | ATIR = #2) = y3 ~ 0-364, 
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拉 普 拉 斯 修正 实质 上 假 
设 了 属性 值 与 类 别 均 匀 分 
布 , 这 是 在 朴素 贝 叶 斯 学 
习 过 程 中 额外 引入 的 关于 
数据 的 先 验 . 


| 第 7 章 ” 贝 叶 斯 分 类 器 


Rio P( 色 泽 = = 青绿 | 好 瓜 = F) = —— 7x 0.333. 


同时 ， 上 文 提 到 的 概率 Pme 可 估计 为 ~ 


ce 0+1 
PEE E EEE 


显然 , 拉 普 拉 斯 修正 避 圈 免 了 因 训 练 集 样本 不 充分 而 导致 概率 估 值 为 零 的 问题 
并 且 在 训练 集 变 大 时 ， 修正 过 程 所 引入 的 先 验 (prior) 的 影响 也 会 逐渐 变 得 可 忽 
略 , 使 得 估 值 渐 趋 向 于 实际 概率 值 . 

在 现实 任务 中 朴素 贝 叶 斯 分 类 器 有 多 种 使 用 方式 . 例如 , 车 任务 对 预测 束 
度 要 求 较 高 , 则 对 给 定 训练 集 , 可 将 朴素 贝 叶 斯 分 类 器 涉及 的 所 有 概率 估 值 事 
先 计算 好 存储 起 来 , 这 样 在 进行 预测 时 只 需 “ 查 表 ” 即 可 进行 判别 ; 若 任务 数 
PERMA, 则 可 采用 “懒惰 学 习 ?” (lazy learning) 方式 , 先 不 进行 任何 训练 ， 
待 收 到 预测 请 求 时 再 根据 当前 数据 集 进 行 概率 估 值 ; 若 数据 不 断 增加 , 则 可 在 
现 有 估 值 基础 上 , 仅 对 新 增 样本 的 属性 值 所 涉及 的 概率 估 值 进行 计数 修正 即 可 
实现 增 量 学 习 . 


7 4 半 朴 素 贝 叶 斯 分 类 器 


为 了 降低 贝 叶 斯 公式 (7.8) 中 估计 后 验 概率 P(c | z) 的 困难 , 朴素 贝 叶 斯 分 
类 器 采用 了 属性 条 件 独 立 性 假设 , 但 在 现实 任务 中 这 个 假设 往往 很 难 成 立 . 于 
FE, 人 们 尝试 对 属性 条 件 独 立 性 假设 进行 一 定 程度 的 放松 ， 由 此 产生 了 一 类 称 
为 “ 半 朴 素 贝 叶 斯 分 类 器 ” (semi-naive Bayes classifiers) 的 学 习 方 法 . | 

半 朴 素 贝 叶 斯 分 类 器 的 基本 想法 是 适当 考虑 一 部 分 属性 间 的 相互 依赖 信 
息 , 从 而 既 不 需 进行 完全 联合 概率 计算 , 又 不 至 于 彻底 忽略 了 比较 强 的 属性 依 
赖 关系 . “ 独 依赖 佑 Y ”(One-Dependent Estimator, 简称 ODE) 是 半 朴 素 贝 叶 
斯 分 类 器 最 常用 的 一 种 策略 . 顾 名 思 议 , 所 谓 “ 独 依赖 ”就 是 假设 每 个 属性 在 
类 别 之 外 最 多 仅 依赖 于 一 个 其 他 属性 , 即 


d 。 
P(c | æ) x P(c) | [| Pha: | c, pai) , Boe 

1=1 
其 中 pa; 为 属性 x; 所 依赖 的 属性 , PRA z; 的 父 属性 . 此 时 , 对 每 个 属性 zi, 4 
其 父 属性 pa; 已 知 , 则 可 采用 类 似 式 (7.20) 的 办 法 来 估计 概率 值 P(xi | c, pai). 


TF, 问题 的 关键 就 转化 为 如 何 确定 每 个 属 性 四 > 属性 , 不 同 的 做 法 产生 不 同 
ww ai bèt. com OOOO0000 | 





7.4 半 朴 素 贝 叶 斯 分 类 器 | 155 


的 独 依赖 分 类 器 . 

最 直接 的 做 法 是 假设 所 有 属性 都 依赖 于 同一 个 属性 , 称 为 “ 超 父 ”(super- 
parent), 然后 通过 交 交叉 验证 等 模型 选择 方法 来 确定 超 父 属性 , 由 此 形成 了 
SPODE (Super-Parent ODE). 例如 , 在 图 7.1(b) 中 , zi 是 超 父 属性 . 


O 
coche > EEE 


(a) NB (b) SPODE (c) TAN 






7.1 朴素 贝 叶 斯 与 两 种 半 朴 素 贝 叶 斯 分 类 器 所 考虑 的 属性 依赖 关系 


TAN (Tree Augmented naive Bayes) [Friedman et al., 1997] 则 是 在 最 大 市 
权 生 成 树 (maximum weighted spanning tree) 算 法 [Chow and Liu, 1968] 的 基 
” 础 上 , 通过 以 下 步骤 将 属性 间 依 赖 关 系 约 简 为 如 图 7.1(c) 所 示 的 树 形 结构 : 


(1) 计算 任意 两 个 属性 之 间 的 条 件 互 信息 (conditional mutual information) 


Li, Li = £i, £; | c)lo zoe 
I( a 了 ly) 2 a9 j | ) ] 8 P(x; | c)P(a; | c) ， (7.22) 


(2) 以 属性 为 结 点 构建 完全 图 , 任意 两 个 结 点 之 间 边 的 权重 设 为 
T(zi, zj | y); 

(3) 构建 此 完全 图 的 最 大 带 权 生成 树 , 挑选 根 变 量 , 将 边 置 为 有 向 

(4) 加 入 类 别 结 点 y, 增加 从 y 到 每 个 属性 的 有 向 边 ， 


容易 看 出 , 条 件 互信 息 T(zi, z | y) 刻画 了 属性 zi; 和 2, 在 已 知 类 别 情况 下 
的 相关 性 , 因此 , 通过 最 大 生成 树 算法 , TAN 实际 上 仅 保留 了 强 相关 属性 之 间 
的 依赖 性 . 
| AODE (Averaged One-Dependent Estimator) [Webb et al., 2005] 是 一 种 
集成 学 习 参 见 第 8 章 ， 基于 集成 学 习 机 制 、 更 为 强大 的 独 依赖 分 类 器 . 与 SPODE 通过 模型 选择 确定 


超 父 属性 不 同 , AODE ee Pee 来 构建 SPODE, 然后 将 那些 
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m’ 默认 设 为 30 [Webb 
et al., 2005]. 


“高 阶 依赖 ” 即 对 多 个 


属性 依赖 . 


贝 叶 斯 网 是 一 种 经 典 的 
概率 图 模型 ， 概率 图 模型 
参见 第 14 章 . 
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具有 足够 训练 数据 支撑 的 SPODE 集成 起 来 作为 最 终结 果 , 即 


PC | x) T P(e wm; ee EEE (7.23) 


De, T 


其 中 D,, 是 在 第 i 个 属性 上 取 值 为 xz; 的 样本 的 集合 , m HORM. BR, 
AODE 需 估计 P(c, xi) 和 P(x; | c, xi). 类 似 式 (7.20), 有 


Dez; +1 
Peg Se 7.24 
GD- (7.24) 
| 
P(x; | c, xi) = 一 一) (7.25) 
: ' [Dezil + Nj 


”其 中 Ni: 是 第 i 个 属性 可 能 的 取 值 数 , D。。, 是 类 别 为 c 且 在 第 i 个 属性 上 取 值 


和 zx; 的 样本 和 集合. 例如 , 对 西瓜 数据 集 3.0 有 


入 Sw ai See s 6 - 1 
Pe um = POEM = E, BOX = 浊 响 ) = = 0.350 , 
| z 二 Ê( R = 人 好 瓜 二 是 gE — ohm) = 3 十 工 
-Pugem = POTER = 回 陷 | 好 瓜 = 2, eR = 7 Ve 


不 难看 出 , 与 朴素 贝 叶 斯 分 类 器 类 似 , AODE 的 训练 过 程 也 是 “计数 ”， 


在 训练 数据 集 上 对 符合 条 件 的 样本 进行 计数 的 过 程 . 与 朴素 贝 叶 斯 分 i 


似 , AODE 无 需 模 型 选择 , 既 能 通过 预计 算 节省 预测 时 间 ， eee 


式 在 预测 时 再 进行 计数 , 并 且 易于 实现 增 量 学 习 . 


既然 将 属性 条 件 独 立 性 假设 放松 为 独 依赖 假设 可 能 获得 泛 化 性 能 的 提升 ， 
”那么 , 能 和 否 通过 考虑 属性 间 的 高 阶 依赖 来 进一步 提升 泛 化 性 能 呢 ? 也 就 是 说 ， 


将 式 (7.23) 中 的 属性 pa; BRADE k 个 属性 的 集合 pa;, 从 而 将 ODE 拓展 为 


KDE. 需 注意 的 是 , 随 着 的 增加 , 准确 估计 概率 Plz | y, pa) 所 需 的 训练 样 
本 数量 将 以 指数 级 增加 . 因此 ， 若 训练 数据 非常 充分 ， 泛 化 性 能 有 可 能 提升 ; 但 
在 有 限 样本 条 件 下 ， 则 又 陷入 估计 高 阶 联合 概率 的 泥沼 . 


7.5 贝 叶 斯 网 


Tl 叶 斯 网 (Bayesian network) 亦 称 - “信念 网 á (belief network), 它 人 借助 有 问 


EI 图 (Directed Acyclic Graph, 简称 DAG) 来 刻画 属性 之 间 的 依赖 关系 , 并 使 
ww ai bbt. com DAO0000 | | 





7.5 贝 叶 斯 网 


为 了 简化 讨论 ,本 节 假 
定 所 有 属性 均 为 离散 型 . 
对 于 连续 属性 ,条件 概率 
表 可 推广 为 条 件 概率 密度 


这 里 已 将 西瓜 数据 集 的 
连续 属性 “ 含 糖 率 ”转化 


这 里 并 未 列举 出 所 有 的 
条 件 独 立 关 系 . 
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用 条 件 概率 表 (Conditional Probability Table, 人 简称 CPT) 来 描述 属性 的 联合 概 
率 分 布 . 

具体 来 说 , 一 个 贝 叶 斯 网 B 由 结构 G 和 参数 © 两 部 分 构成 , 即 = (G, 9). 
网 络 结构 G 是 一 个 有 向 无 环 图 , 其 每 个 结 点 对 应 于 一 个 属性 , 徊 两 个 属性 有 
直接 依赖 关系 , 则 它们 由 一 条 边 连 接 起 来 ; 参数 9 定量 描述 这 种 依赖 天 系 ， 
假设 属性 x; 在 G PNR RRA m, 则 9 包含 了 每 个 属性 的 条 件 概率 表 
Orini = Pax: | m). 

作为 一 个 例子 , 图 7.2 给 出 了 西瓜 问题 的 一 种 贝 叶 斯 网 结构 和 属性 “ 根 
带 ” 的 条 件 概 率 表 . 从 图 中 网 络 结构 可 看 出 , “色泽 ”直接 依赖 于 “好 瓜 ” 和 
“ 甜 度 ”, 而 “ 根 带 ” 则 直接 依赖 于 “ 甜 度 ”; 进一步 从 条 件 概率 表 能 得 到 
“ 根 蒂 ”对 “ 甜 度 ” 量 化 依赖 关系 , 如 PORRE = TERE | FHS = 高 ) = 0.1 等 . 











图 7.2 西瓜 问题 的 一 种 贝 叶 斯 网 结构 以 及 属性 “ 根 蒂 ”的 条 件 概 率 表 


7.5.1 结构 


贝 叶 斯 网 结构 有 效 地 表达 了 属性 间 的 条 件 独立 性 . 给 定 父 结 扣 集 , 贝 叶 斯 
网 假设 每 个 属性 与 它 的 非 后 裔 属性 独立 , 于 是 已 = (G,O) 将 属性 x1, 22,... ,Xa 
的 联合 概率 分 布 定 义 为 


d d 
Pei Qo, aes T — | | Ps(z; | Ti) = | (7.26) 


以 图 7.2 为 例 , 联合 概率 分 布 定义 为 
PGi, tah stats) — PGP ae) Pes a) Pra | a) Ps |) 


显然 , za 和 r, 在 给 定 z1 的 取 值 时 独立 , z4 和 zs 在 给 定 ze 的 取 值 时 独立 , 分 
ANIA £3 L xq | z1 M xg Lss | ro. 
图 7.3 显示 出 贝 叶 斯 网 中 三 个 变量 之 间 的 典型 依赖 关系 , 其 中 前 两 种 在 


sk (7.26) FA ATARI. 
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对 变量 做 积分 或 求 和 亦 


称 “ 边 际 化 ” (marginal- 


ization). 


D 是 指 “ 有 向 ” (direct- 
ed). 


同 父 、 顺 序 和 V 型 结构 
的 发 现 以 及 有 向 分 离 的 提 
出 推动 了 因果 发 现 方面 的 
研究 , 参阅 [Pearl, 1988]. 


也 有 译 为 “端正 图 ”. 

“Wet” HBL: B 
子 的 父母 应 建立 牢靠 的 关 
系 ,否则 是 不 道德 的 . 
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同 父 结构 顺序 结构 - 


7.3 贝 叶 斯 网 中 三 个 变量 之 间 的 典型 依赖 关系 


V 型 结构 


在 “ 同 父 ”(common parent) 结 构 中 , 给 定 父 结 点 rı 的 取 值 , 则 r3 与 x4 
条 件 独立 . 在 “顺序 ”结构 中 , 给 定 z 的 值 , Wy 与 z 条 件 独立 . V 型 结构 (V- 
structure) 亦 称 “ 冲 撞 ” 结 构 , 给 定子 结 点 z4 的 取 值 , 21 与 x2 必 不 独立 ; 奇妙 
的 是 , 若 z4 的 取 值 完全 未 知 , 则 V 型 结构 下 zi 与 za 却 是 相互 独立 的 . 我 们 做 
一 个 简单 的 验证 : 


P(21, £2) = X P(z1, 22, 4) 


T4 


一 >》 P(x4 | £1, %2)P(x1)P(x2) 


T4 


= POP (7.27) 


这 样 的 独立 性 称 为 “边际 独立 性 ”(marginal independence), 记 为 £il x2. 

事实 上 , 一 个 变量 取 值 的 确定 与 否 , 能 对 另 两 个 变量 间 的 独立 性 发 生 影响 ， 
这 个 现象 并 非 V 型 结构 所 特有 . 例如 在 同 父 结构 中 , 条 件 独立 性 za 上 ag | z 
成 立 , (A zi 的 取 值 未 知 , 则 za 和 L4 就 不 独立 , 即 za 由 z4 不 成 立 ; 在 顺序 结 


RIP, y Lz | a, 1 ylz 不成立 . 


为 了 分 析 有 向 图 中 变量 间 的 条 件 独立 性 , 可 使 用 “有 向 分 离 ”(D- 
separation). 我 们 先 把 有 癌 图 转变 为 一 个 无 癌 图 : 


。 找 出 有 同 图 中 的 所 有 V 型 结构 , 在 V 型 结构 的 两 个 父 结 反之 间 加 上 一 条 
无 向 边 ; ma 


e 将 所 有 有 同 边 改 为 无 向 边 . 


由 此 产生 的 无 向 图 称 为 “道德 图 ”(moral graph), 令 父 结 点 相连 的 过 程 称 为 
“过 德 化 ”(moralization) [Cowell et al., 1999]. 
基于 道德 图 能 直观 、 迅 速 地 找到 变量 间 的 条 件 独立 性 . 假定 道德 图 中 有 变 


德 图 
E r, y 和 变量 集合 z = {2i}, 若 变量 x Aly 能 在 图 上 被 z 分 开 , 即 从 道德 图 中 将 
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7.5“ 贝 叶 斯 网 


归纳 偏好 参见 1.4 节 . 


这 里 我 们 把 类 别 也 看 作 


一 个 属性 , 即 zi 是 一 个 包 


括 示例 和 类 别 的 向 量 . 


159 


变量 集合 z 去 除 后 , > 和 y 分 属 两 个 连通 分 支 , 则 称 变量 zZ Aly 被 z AAA, 


aly|z 成 立 . 例如 , 图 7.2 所 对 应 的 道德 图 如 图 7.4 所 示 , 从 图 中 能 容易 地 找 
出 所 有 的 条 件 独 立 关 系 : za 上 za | zl, £4 上 x5 | za, Z3 上 z| 21, £3 上 zs |z, 
T3 ae £5 | T? 等 . 





7.4 图 7.2 对 应 的 道德 图 


7.5.2 学 习 


知 网 络 结构 已 知 , 即 属性 间 的 依赖 关系 已 知 , 则 贝 叶 斯 网 的 学 习 过 程 相 对 
简单 , 只 需 通 过 对 训练 样本 “计数 ”, 估计 出 每 个 结 点 的 条 件 概 率 表 即 可 . 但 在 
现实 应 用 中 我 们 往往 并 不 知晓 网 络 结构 , 于 是 , 贝 叶 斯 网 学 习 的 首要 任务 就 是 
根据 训练 数据 集 来 找 出 结构 最 “恰当 ”的 贝 叶 斯 网 . “评分 搜索 ”是 求解 这 一 
问题 的 常用 办 法 . 具体 来 说 , 我 们 先 定义 一 个 评分 函数 (score function), 以 此 来 
评估 贝 叶 斯 网 与 训练 数据 的 契合 程度 , 然后 基于 这 个 评分 函数 来 寻找 结构 最 优 
的 贝 叶 斯 网 . 显然 ， 评分 沙 数 引入 了 关于 我 们 希望 获得 什么 标的 由 时 基 网 的 归 
纳 偏好 . 


常用 评分 函数 通常 基于 信息 他 准则 此 类 准则 将 学 习 问 题 看 作 一 个 数据 压 
缩 任 务 , 学 习 的 目标 是 找到 一 个 能 以 最 短 编 码 长 度 描述 训练 数据 的 模型 , 此 时 
编码 的 长 度 包括 了 描述 模型 自身 所 需 的 字 节 长 度 和 使 用 该 模型 描述 数据 所 需 
的 字 节 长 度 . 对 贝 叶 斯 网 学 习 而 言 , 模型 就 是 一 个 贝 叶 斯 网 , 同时 , 每 个 贝 叶 斯 
网 描述 了 一 个 在 训练 数据 上 的 概率 分 布 , 自 有 一 套 编 码 机 制 能 使 那些 经 常 出 
现 的 样本 有 更 短 的 编码 . 于 是 , 我 们 应 选择 那个 综合 编码 长 度 (包括 描述 网 络 
和 编码 数据 ) 最 短 的 贝 叶 斯 网 , 这 就 是 “最 小 描述 长 度 ”(Minimal Description 
Length, 简称 MDL) 准 则 . 


给 定 训 练 集 D= {x1, TV2,...,， Tn 贝 叶 斯 网 B= (G, O) 在 D 上 的 评分 函 
Bay BA | 

s(B | D) = Ft) BI — LL(B | D) , (7.28) 
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即 事件 在 训练 数据 上 出 
现 的 频率 . 


”例如 TAN [Friedman et 
”al., 1997] 将 结构 限定 为 树 


ERE Mt HARE 
请 作 内 叶 新 网 的 特 全 ) 


” 计 获 得 ， 即 


第 7 章 贝 叶 斯 分 类 器 


a Bl 是 贝 叶 斯 网 的 参数 个 数 jg) 表示 描述 每 个 参数 0 所 需 的 字 节 数 ; 而 
IUB | D)= Fia log Pp (zi) (7.29) 


是 贝 叶 斯 网 B 的 对 数 似 然 ， 显 然 , 式 (7. 28) 的 第 一 项 是 计算 编码 贝 叶 斯 网 B 

所 需 的 字 节 数 , 第 二 项 是 计算 B 所 对 应 的 概率 分 布 Pp 需 多 少 字 节 来 描述 D. 

FE, 学 习 任务 就 转化 为 一 个 优化 任务 , 即 寻 找 一 个 贝 叶 斯 网 B 人 
s(B | D) 最 小 . 


若 f(O = 1 即 每 个 参数 用 1 FTIR, 则 得 到 AIC (Akaike roia 
Criterion) 评 分 函数 


AIC(B | D) = |B| “LNR | D). | (7.30) | 


车 f(0) = i logm, 即 每 个 参数 用 记 5 log m FHA, 则 得 到 BIC (Bayesian 
Information Criterion) PA E 数 


<6 m 





BIC(B | D) = |B| — LL(B| D) . (7.31) 


显然 , 若 f(0) = 0, Se 则 评分 函数 退化 为 负 


对 数 似 然 , 相应 的 ， A a 


不 难 发 现 , 车 贝 叶 斯 网 B = (G,9) 的 网 络 结构 G 固定 则 评分 函数 


s(B | D) 的 第 一 项 为 常数 . 此 时 , 最 小 化 s(B | D) 等 价 于 对 参数 O 的 极 大 似 然 


估计 . 由 式 (7.29) 和 (7. 26) A, 2 参数 0,10, 能 直接 在 训练 数据 D 上 通过 经 验 估 


O Ini 一 = Pp(x; | ri) ) | | (7.32) 


其 中 Pp() E D ERARA. 因此 ， 为 了 最 小 化 评分 函数 s(B | D), 只 需 对 网 


络 结构 进行 搜索 , 而 候选 结构 的 最 优 参数 可 直接 在 训练 集 上 计算 得 到 


不 幸 的 是 , 从 所 有 可 能 的 网 络 结构 空间 搜索 最 优 贝 叶 斯 网 结构 是 一 个 NP 
难 问题 , 难以 快速 求解 . 有 两 种 常用 的 策略 能 在 有 限时 间 内 求 得 近似 解 : 第 一 
种 是 贪心 法 , 例如 从 某 个 网 络 结构 出 发 , 每 次 调整 一 条 边 (增加 、 删 除 或 调整 方 
向 ), 直到 评分 函数 值 不 再 降低 为 止 ; 第 二 种 是 通过 给 网 络 结构 施加 约束 来 削减 
搜索 空间 , 例如 将 网 络 结构 限定 为 树 形 结构 等 ， | | | 
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7.5“ 贝 叶 斯 网 


类 别 也 可 看 作 一 个 属性 
变量 . 


更 多 关于 推断 的 内 容 见 
第 14 章 . 


变 分 推断 也 很 常用 ， A 


见 14.5 节 . 


更 多 关于 马尔 可 夫 链 和 


吉 布 斯 采样 的 内 容 参 见 


14.5 节 . 
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7.5.3 推断 


贝 叶 斯 网 训练 好 之 后 就 能 用 来 回答 “查询 ”(query), 即 通 过 一 些 属性 变量 
的 观测 值 来 推测 其 他 属性 变量 的 取 值 . 例如 在 西瓜 问题 中 , 各 我 们 观测 到 西瓜 
GABA. MPT. Rea, 想 知道 它 是 否 成 熟 、 甜 度 如 何 . 这 样 通过 已 
知 变量 观测 值 来 推测 待 得 询 变量 的 过 程 称 为 “ 推 新 ”(inference), 已 知 变量 观 
MEKA “WEH” (evidence). 


最 理想 的 是 直接 根据 贝 叶 斯 网 定义 的 联合 概率 分 布 来 精确 计算 后 验 概率 ， 
不 幸 的 是 , 这 样 的 “精确 推 朵 ”已 被 证 明 是 NP 难 的 [Cooper, 1990]; 换言之 ， 
当 网 络 结 点 较 多 、 连 接 稠密 时 , 难以 进行 精确 推断 , 此 时 需 借助 “近似 推断 ”， 
通过 降低 精度 要 求 , 在 有 限时 间 内 求 得 近似 解 . 在 现实 应 用 中 , 贝 叶 斯 网 的 近似 
推断 常 使 用 吉 布 斯 采样 (Gibbs sampling) 来 完成 , 这 是 一 种 随机 采样 方法 , 我 们 
来 看 看 它 是 如 何 工作 的 . | | | 


SQ = {Q1, Qe,.--; Qn} 表示 待 查询 变量 , E = (Ey, Bo,..., Ek} 为 证 据 变 
量 , 已 知 其 取 值 为 e = {e1,€0,...,en}. 目标 是 计算 后 验 概率 P(Q=q|E=e), 
其 中 q = {0,02 dn} 是 待 查询 变量 的 一 组 取 值 . 以 西瓜 问题 为 例 , 待 查询 变 
量 为 Q = { 好 瓜 , HE}, 证 据 变量 为 E = { 色 泽 , RE} 且 已 知 其 取 值 为 
e= {青绿 , 浊 响 , EA), 查询 的 目标 值 是 q = { 是 , 高 }, 即 这 是 好 瓜 且 甜 度 高 的 


概率 有 多 大 . 


如 图 7.5 所 示 , 吉 布 斯 采样 算法 先 随机 产生 一 个 与 证 据 忆 = e 一 致 的 样本 
q0 作为 初始 点 , 然后 每 步 从 当前 样本 出 发 产生 下 一 个 样本 . 具体 来 说 , 在 第 t 
次 采样 中 , 算法 先 假设 qt = qt), 然后 对 非 证 据 变量 逐个 进行 采样 改变 其 取 值 ， 
采样 概率 根据 贝 叶 斯 网 B 和 其 他 变量 的 当前 取 值 ( 即 Z = z) 计 算 获得 . 假定 经 
过 人 次 采样 得 到 的 与 q 一 致 的 样本 共有 ng 个 , 则 可 近似 估算 出 后 验 概率 


PQ=q|E=6) x. (7.33) 


实质 上 , 吉 布 斯 采样 是 在 贝 叶 斯 网 所 有 变量 的 联合 状态 空间 与 证 据 EE=e 
一 致 的 子 空间 中 进行 “随机 漫步 ”(random walk). 每 一 步 仅 依赖 于 前 一 步 
的 状态 , 这 是 一 个 “马尔 可 夫 链 ”(Markov chain). 在 一 定 条 件 下 , 无 论 从 
什么 初始 状态 开始 , 马尔 可 夫 链 第 t 步 的 状态 分 布 在 t 一 co 时 必 收 敛 于 一 
个 平稳 分 布 (stationary distribution); 对 于 吉 布 斯 采样 来 说 ， 这 个 分 布 恰好 是 
P(Q|E =e). AK, ET RAN, 吉 布 斯 采样 相当 于 根据 P(Q |E = e) 采样 ， 


从 而 保证 了 式 (7. 331 收 伍 于 P(Q= q | eS =e). 
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除去 变量 Qi 外 的 其 他 


由 于 “ 似 然 ” 常 基于 指 
数 族 函数 来 定义 , 因此 对 


数 似 然 及 后 续 EM 迭代 过 


。 程 中 一 般 是 使 用 自然 对 数 
In(-) . 


第 7 章 ” 贝 叶 斯 分 类 器 


‘A: 贝 叶 斯 网 B= (G, O); 


(G, O); 
采样 次 数 工 ; 
证 据 变 量 E 及 其 取 值 e; 
。 待 查询 变量 Q 及 其 取 值 q 
过 程 : | 
1: Ng = 
2: q? = a Q 随机 赋 初 值 
3: for t = 1,2,...,T do 
4: for Q;€ Q do | 
5: Z = EUQ\ {Qj}; 
6: z=eU qt 一 1 \ 5 . 
7: Ie B 计算 分 布 "Ps (Qi | Z= z); 
8: 二 根据 Pp(Q; | Z = z) 采样 所 获 Qi 取 值 ; 
9: oar eae 替换 
10: end for 
11: if qf = q then 
12: ng 二 ng 十 1 
13: end if 
14: end for 


输出 : P(Q=q|E=e)~ 7 


7.5 吉 布 斯 采样 算法 


需 注意 的 是 , 由 于 马尔 可 夫 链 通常 需 很 长 时 间 才 能 趋 于 平稳 分 布 , 因此 
吉 布 斯 采样 算法 的 收敛 速度 较 慢 . 此 外 ,. 若 贝 叶 斯 网 中 存在 极端 概率 “0” 或 
“1” , 则 不 能 保证 马尔 可 夫 链 存在 平稳 分 布 , 此 时 吉 布 斯 采样 会 给 出 错误 的 估 
WAR. 


7.6 EM 算法 


在 前 面 的 讨论 中 , 我 们 一 直 假设 训练 样本 所 有 属性 变量 的 值 都 已 被 观测 到 ， 
即 训练 样本 是 “完整 ”的 . 但 在 现实 应 用 中 往往 会 遇 到 “不 完整 ”的 训练 样 
Ax, 例如 由 于 西瓜 的 根 蒂 已 脱落 , 无 法 看 出 是 “ 册 缩 ”还 是 “ 硬 手 ”, 则 训练 样 
本 的 “ 根 莫 ” 属 性 变量 值 未 知 . 在 这 种 存在 “未 观测 ”变量 的 情形 下 , 是 否 仍 
能 对 模型 参数 进行 估计 呢 ? 


未 观测 变量 的 学 名 是 “ 隐 变 量 ” (latent variable). © X 表示 已 观测 变量 


R, 2 表示 隐 变 量 集 , © 表示 模型 参数 . 若 欲 对 © 做 极 大 似 然 估计 , 则 应 最 大 化 


对 数 似 然 


FF(e | X,Z) =n P(X,Z | ©) . (7.34) 
然而 由 于 Z ERRE, 上 式 无 法 直接 求解 此 时 我 们 可 通过 对 Z 计算 期 望 ， 来 
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TT 
最 大 化 已 观测 数据 的 对 数 “ 边 际 似 然 ”(marginal likelihood) 


LL(O | X) =InP(X | 0) =In Dee P(X, Z|). (7.35) 


o e ia EM (Expectation-Maximization) 算法 [Dempster et al., 1977] 是 常用 的 估 
法 . 计 参 数 隐 变量 的 利器 , 它 是 一 种 迭代 式 的 方法 , 其 基本 想法 是 : SSR 9 OM, 
则 可 根据 训练 数据 推断 出 最 优 隐 变量 Z 的 值 (E 步 ); 反之, AZ 的 值 已 知 , 则 可 


这 里 仅 给 出 EM 算法 的 +3 TEES RISEN. 
ERE EM BEY RM BM © 做 极 大 似 然 估计 M 步 ) 


9.4.3 $. 于 是 , 以 初始 值 O0 为 起 点 , 对 式 (7.35), 可 和 迭代 执行 以 下 步骤 直至 收敛: 


9 FET 8: 推断 隐 变 量 Z 的 期 望 , 记 为 2 
。 基 于 已 观测 变量 X 和 Zt 对 参数 O 做 极 大 似 然 估计 , 记 为 Ot; 


这 就 是 EM 算法 的 原型 . | 
进一步 , 若 我 们 不 是 取 Z 的 期 望 , 而 是 基于 O 计算 隐 变 量 Z 的 概率 分 布 
P(Z | X, 0°), 则 EM 算法 的 两 个 步骤 是 : 


e E % (Expectation): 以 当前 参数 Of 推断 隐 变 量 分 布 P(Z | X,0°), 并 计 
算 对 数 似 然 LL(6 | X, Z) KF Z 的 期 望 


Q(9 | 0°) = Egix or LL(® | X, Z). = (7.36) 
© M (Maximization): 寻找 参数 最 大 化 期 望 似 然 , 即 
otti ~ arg max Q(9 | O°) . (7.37) 
© | 


简要 来 说 , EM 算法 使 用 两 个 步骤 交替 计算 : 第 一 步 是 期 望 (E) 步 , 利用 当 

前 估计 的 参数 值 来 计算 对 数 似 然 的 期 望 值 ; 第 二 步 是 最 大 化 (M) 步 , 寻找 能 使 

EM 算法 的 收敛 性 分 析 ” 马 步 产生 的 似 然 期 望 最 大 化 的 参数 值 . 然后 , 新 得 到 的 参数 值 重 新 被 用 于 卫 步 ， 
HR [Wu 1983), :i 直至 收敛 到 局 部 最 优 解 . 


EM 算法 可 看 作用 坐标 事实 上 , 隐 变 量 估计 问题 也 可 通过 梯度 下 降 等 优化 算法 求解 , 但 由 于 求 和 
下 降 (coordinate descen H TA Ber Ap- hh% y ło% 人 > HE F. 
FE (coordinate descent) 的 项 数 将 随 着 隐 变 量 的 数目 以 指数 级 上 升 , 会 给 梯度 计算 带 来 麻烦 ; 而 EM 算 
的 过 程 ， 坐 标 下 降 法 参见 ”法 则 可 看 作 一 种 非 梯度 优化 方法 . | 
附录 B.5. 
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J. Pearl 教授 因 这 方面 的 - 


”卓越 贡献 而 获得 2011 年 
ARR, BUF 14 章 . 


贝 叶 斯 网 是 经 典 的 概率 
图 模型 , 参见 第 14 章 . 


第 7 章 贝 叶 斯 分 类 器 


7.7 阅读 材料 


贝 叶 斯 决策 论 在 机 器 学 习 、 模 式 识别 等 诸多 关注 数据 分 析 的 领域 都 有 极 
为 重要 的 地 位 . 对 贝 叶 斯 定理 进行 近似 求解 , 为 机 器 学 习 算法 的 设计 提供 了 
一 种 有 效 途 径 . 为 避免 由 叶 斯 定理 求解 时 面临 的 组 合 爆炸 、 样本 稀疏 问题 , 朴 
素 贝 叶 斯 分 类 器 引入 了 属性 条 件 独 立 性 假设 . 这 个 假设 在 现实 应 用 中 往往 很 
难 成 立 , 但 有 趣 的 是 , 朴素 贝 叶 斯 分 类 器 在 很 多 情形 下 都 能 获得 相当 好 的 性 能 
[Domingos and Pazzani, 1997: Ng and Jordan, 2002]. 一 种 解释 是 对 分 类 任务 
来 说 , 只 需 各 类 别 的 条 件 概率 排序 正确 、 无 须 精 准 概率 值 即 可 导致 正确 分 类 结 
果 [Domingos and Pazzani, 1997]; 另 一 种 解释 是 , 徊 属性 间 依 赖 对 所 有 类 别 影 
响 相 同 , 或 依赖 关系 的 影响 能 相互 抵消 , 则 属性 条 件 独立 性 假设 在 降低 计算 开 
销 的 同时 不 会 对 性 能 产生 负面 影响 [Zhang, 2004]. 朴素 贝 叶 斯 分 类 器 在 信息 检 
索 领域 尤为 常用 [Lewis, 1998], [McCallum and Nigam, 1998] 对 其 在 文本 分 类 
中 的 两 种 常见 用 法 进行 了 比较 . 


根据 对 属性 间 依 赖 的 涉及 程度 , 贝 叶 斯 分 类 器 形成 了 一 个 “ 谱 ”: 朴素 贝 


” 叶 斯 分 类 器 不 考虑 属性 间 依 赖 性 , 贝 叶 斯 网 能 表示 任意 属性 间 的 依赖 性 , 二 者 


分 别 位 于 “ 谱 ” 的 两 端 ; 介 于 两 者 之 间 的 则 是 一 系列 半 朴 素 贝 叶 斯 分 类 器 , 它 
们 基于 各 种 假设 和 约束 来 对 属性 间 的 部 分 依赖 性 进行 建 模 . 一 般 认为 , 半 朴 素 


贝 叶 斯 分 类 器 的 研究 始 于 [Kononenko, 1991]. ODE 仅 考虑 依赖 一 个 父 属 性 


由 此 形成 了 独 依赖 分 类 器 如 TAN [Friedman et al., 1997], AODE [Webb et al., 
2005]. LBR (lazy Bayesian Rule) [Zheng and Webb, 2000] 等 ; kDE 则 考虑 最 


“多 依赖 天 个 父 属性 , 由 此 形成 了 k 依赖 分 类 句 如 KDB [Sahami, 1996]. NBtree 
[Kohavi, 1996] 等 . 


贝 叶 斯 分 类 器 (Bayes Classifier) 与 一 般 意义 上 的 “ 贝 叶 斯 学 习 ”(Bayesian 
Learning) 有 显著 区 别 , 前 者 是 通过 最 大 后 验 概率 进行 单 点 估计 , 后 者 则 是 进行 
分 布 估计 . 关于 贝 叶 斯 学 习 的 内 容 可 参阅 [Bishop, 2006]. | 

贝 叶 斯 网 为 不 确定 学 习 和 推断 提供 了 基本 框架 , 因 其 强大 的 表示 能 
良好 的 可 解释 性 而 广 受 关注 [Pearl 1988]. 贝 叶 斯 网 学 习 可 分 为 结构 学 习 和 
参数 学 习 两 部 分 .参数 学 习 通常 较为 简单 , 而 结构 学 习 则 被 证 明 是 NP 难 问 
题 [Cooper，1990; Chickering et al., 2004], 人 们 为 此 提出 了 多 种 评分 搜索 方法 
[Friedman and Goldszmidt, 1996]. 贝 叶 斯 网 通常 被 看 作 生 成 式 模型 , 但 近年 来 


也 有 不 少 关 于 贝 叶 斯 网 判别 式 学 习 的 研究 [Grossman and Domingos, 2004]. 关 


于 贝 叶 斯 网 的 更 多 介绍 可 参阅 [Jensen, 1997; Heckerman, 1998]. 


EM FRA FS hs i eam AHAAA 在 机 器 学 习 中 有 BAN 泛 的 用 途 , 例 
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如 常 被 用 来 学 习 高 其 混合 模型 (Gaussian mixture model, 简称 GMM) 的 参数 ; 
9.4 节 将 介绍 的 天 均值 聚 类 算法 就 是 一 个 典型 的 EM 算法 . 更 多 关于 EM 算法 
的 分 析 、 拓 展 和 应 用 可 参阅 [McLachlan and Krishnan, 2008]. | 

Pe gg ad 本 章 介绍 的 朴素 贝 叶 斯 算法 和 EM 算法 均 曾 入 选 “数据 挖掘 十 大 算法 ” 

还 包括 前 几 章 介绍 的 

C4.5、CART RAM. XR [Wu et al., 2007]. | | 

HEEM, 以 及 后 几 章 将 | 

要 介绍 的 AdaBoost、k 均 

值 聚 类 、k 近邻 算法 等 . 
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西瓜 数据 集 3.0 见 p.84 
的 表 4.3. 


假设 同 先 验 ; 参见 3.4 


西瓜 数据 集 2.0 见 p.76 
的 表 4.1. 


7.2" 


7.3 


7.4 


7.9 


7.6 


7.7 


7.8 


7.9 


第 7 章 只 叶 斯 分 类 器 


试 使 用 极 大 似 然 法 估算 西瓜 数据 集 3.0 中 前 3 个 属性 的 类 条 件 概率 . 


试 证 明 : 条 件 独 立 性 假设 不 成 立时 , 朴素 贝 叶 斯 分 类 器 仍 有 可 能 产生 
最 优 贝 叶 斯 NRA. 


UREDBA ERIEN A, AOR 3.0 


为 训练 集 , 对 p.151 “ 测 1” 样本 进行 判 列 


实践 中 使 用 式 (7.15) 决 定 分 类 类 别 时 , 若 数据 的 维 数 非 常 高 , 则 概率 连 


R IIL Plz: | c) 的 结果 通常 会 非常 接近 于 0 从 而 导致 下 溢 . 试 述 防 
IE PB vat BY FY REN R. oe 


试 证 明 : 一 分 类 任务 中 两 类 数据 满足 珊 斯 分 布 且 方 震 相同 时 ， 线性 判 
别 分 析 产 生 贝 叶 斯 最 优 分 类 器 . 


试 编程 实现 AODE 分 类 器 , 并 以 西瓜 数据 集 3.0 为 训练 集 , 对 p.151 


的 “ 测 1” 样 本 进行 判别 . 


给 定 d 个 二 值 属 性 的 二 分 类 任务 , 假设 及 对 于 任何 先 验 概率 项 的 估算 
至 少 需 30 个 样 例 , 则 在 朴素 贝 叶 斯 分 类 器 式 (7.15) 中 佑 算 先 验 概率 项 
P(c) 需 30 x 2 = 60 个 样 例 . 试 估计 在 AODE 式 (7.23) 中 估算 先 验 概 
率 项 P(c, zi) 所 需 的 样 例 数 (分 别 考虑 最 好 和 最 坏 Æ). 


考虑 图 7.3, WEH: 在 同 父 结构 中 , Æ zl 的 取 值 未 知 则 z3 r4 不 成 
立 ; 在 顺序 结构 中 , y Lz | x, 1 yle 不成立. 


以 西瓜 数据 集 2.0 为 训练 集 , 试 基于 BIC 准则 构建 一 个 贝 叶 斯 网 


以 西瓜 数据 集 2.0 中 属性 “ 脐 部 ”为 隐 变 量 , 试 基 于 EM 算法 构建 一 
个 贝 叶 斯 网 . 
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小 故事 : 贝 叶 斯 之 谜 
1763 年 12 月 23 日 ,托马斯 。 贝 叶 斯 (Thomas Bayes, 
1701? 一 1761) 的 遗产 受 赠 者 R. Price 牧师 在 英国 皇家 学 
cee ee ole 会 宣读 了 贝 叶 斯 的 遗 作 《 论 机 会 学 说 中 一 个 问题 的 求解 》， 
相当 于 科学 院 院士 ， 其 中 给 出 了 贝 叶 斯 定理 , 这 一 天 现在 被 当 作 贝 叶 斯 定理 的 诈 
生日 . 虽然 贝 叶 斯 定理 在 今天 已 成 为 概率 统计 最 经 典 的 内 容 
之 一 , 但 贝 叶 斯 本 人 却 答 章 在 谜团 中 . 
现 有 资料 表明 , 贝 叶 斯 是 一 位 神职 人 员 , 长 期 担任 英国 坦 布 里 奇 韦 尔 斯 地 
方 教堂 的 牧师 , 他 从 事 数学 研究 的 目的 是 为 了 证 明 上 沉 的 存在 . 他 在 1742 年 当 
选 英国 皇家 学 会 会 士 , 但 没有 记录 表明 他 此 前 发 表 过 任何 科学 或 数学 论文 . 他 
的 提名 是 由 皇家 学 会 的 重量 级 人 物 签署 的 , 但 为 什么 提名 以 及 他 为 何 能 当选 ， 
BSE. 贝 叶 斯 的 研究 工作 和 他 本 人 在 他 生活 的 时 代 很 少 有 人 关注 ， 贝 
叶 斯 定理 出 现 后 很 快 就 被 遗忘 了 , 后 来 大 数学 家 拉 普 拉 斯 使 它 重新 被 科学 界 所 
熟悉 , 但 直到 二 十 世纪 随 着 统计 学 的 广泛 应 用 才 备 受 瞩 目 . 贝 叶 斯 的 出 生年 份 
至 今 也 没有 清楚 确定 , 甚至 关于 如 今 广 泛 流传 的 他 的 画像 是 不 是 贝 叶 斯 本 人 ,， 
也 仍 存 在 争议 . 
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ensemble #4 “ip # 
Z? 而 非 “HRE” , 


弱 学 习 器 常 指 泛 化 性 能 
略 优 于 随机 猜测 的 学 习 器 ; 
例如 在 二 分 类 问题 上 精度 
略 高 于 50% 的 分 类 器 . 


8.1 个 体 与 集成 


集成 学 习 (ensemble learning) 通 过 构建 并 结合 学 习 器 来 完成 学 习 任 
务 , 有 时 也 被 称 为 多 分 类 器 系统 (multi-classifier eal 基于 委员 会 的 学 
习 (committee-based learning) 等 . 

图 8.1 显示 出 集成 学 习 的 一 般 结 构 : 先 产 生 一 组 “个 体 学 习 
器 ”(individual learner)， 再 用 某 种 策略 将 它们 结合 起 来 . 个 体 学 习 器 通常 
由 一 个 现 有 的 学 习 算 法 从 训练 数据 产生 , 例如 C4.5 决策 树 算 法 、BP 神经 网 
络 算法 等 , 此 时 集成 中 只 包含 同 种 类 型 的 个 体 学 习 器 , 例如 “决策 树 集成 ” 
中 全 是 决策 树 ，“ 神 经 网 络 集成 ”中 全 是 神经 网 络 , 这 样 的 集成 是 “ 同 质 ” 
的 (homogeneous). 同 质 集成 中 的 个 体 学 习 器 亦 称 “ 基 学 习 器 ”(base learner), 
相应 的 学 习 算法 称 为 “ 基 学 习 算 法 ”(base learning algorithm). 集成 也 可 包含 
不 同类 型 的 个 体 学 习 器 , 例如 同时 包含 决策 树 和 神经 网 络 , 这 样 的 集成 是 “ 异 
质 ” 的 (heterogenous). 异 质 集成 中 的 个 体 学 习 器 由 不 同 的 学 习 算法 生成 , 这 时 
就 不 再 有 基 学 习 算 法 ; 相应 的 , 个 体 学 习 器 一 般 不 称 为 基 学 习 器 , 常 称 为 a | 
*# J 2” (component learner) 或 直接 称 为 个 体 学 习 器 . 





集成 学 习 通 过 将 多 个 学 习 器 进行 结合 , 党 可 获得 比 单一 学 习 器 显著 优越 的 
泛 化 性 能 . 这 对 “ 弱 学 习 器 ”(weak learner) 尤为 明显 , 因此 集成 学 习 的 很 多 理 
论 研究 都 是 针对 弱 学 习 器 进行 的 , 而 基 学 习 器 有 了 时 也 被 直接 称 为 弱 学 习 器 . 但 


需 注意 的 是 , BAM BEY R EREA BE 2d BR ARAL DARE RI 性 能 , 但 在 实 
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践 中 出 于 种 种 考虑 , 例如 希望 使 用 较 少 的 个 体 学 习 器 , 或 是 重用 关于 常见 学 习 
器 的 一 些 经 验 等 , 人 们 往往 会 使 用 比较 强 的 学 习 器 ， 

在 一 般 经 验 中 , 如 果 把 好 坏 不 等 的 东西 掺 到 一 起 , 那么 通常 结果 会 是 比 最 

坏 的 要 好 一 些 , 比 最 好 的 要 坏 一 些 . 集成 学 习 把 多 个 学 习 器 结合 起 来 ， 如 何 能 获 

得 比 最 好 的 单一 学 习 器 更 好 的 性 能 呢 ? | 
考虑 一 个 简单 的 例子 : 在 二 分 类 任务 中 , 假定 三 个 分 类 器 在 三 个 测试 样本 
上 的 表现 如 图 8.2 所 示 , 其 中 V 表示 分 类 正确 , x 表 示 分 类 错误 , 集成 学 习 的 结 
果 通 过 投票 法 (voting) 产 生 , 即 “少数 服从 多 数 ”. 在 图 8.2(a) 中 , 每 个 分 类 器 
都 只 有 66.6% 的 精度 ， 但 集成 学 习 却 达到 了 100%; 在 图 8.2(b) 中 , 三 个 分 类 器 
没有 差别 , 集成 之 后 性 能 没有 提高 ; 在 图 8.2(c) 中 , 每 个 分 类 器 的 精度 都 只 有 
33.3%, 集成 学 习 的 结果 变 得 更 糟 . 这 个 简单 的 例子 显示 出 : 要 获得 好 的 集成 ， 
个 体 学 习 器 应 “好 而 不 同 ”, 即 个 体 学 习 器 要 有 一 定 的 “准确 性 ”, 即 学 习 器 

We FAT KERIK, 并 且 要 有 “多 样 性 ”(diversity), 即 学 习 器 间 具 有 差异 


”测试 例 ! 测试 例 2 测试 例 3 测试 例 ! 测试 例 2 测试 例 3 测试 例 ! 测试 例 测试 例 3 - 
h v V X h v V xXx h vy x x 
hx y y h y Vv. X hs x J X 

Oa De ee, E E E 

集成 V V V 集成 Vv o à v x 集成 ”XX X X 

(a) 集成 提升 性 能 ” (b) 集成 不 起 作用 (c) 集成 起 负 作用 





图 8.2 集成 个 体 应 “好 而 不 同 ” (ju 表示 第 i 个 分 类 器 ) 


我 们 来 做 个 简单 的 分 析 . 考虑 一 分 类 问题 yc {_1, +1} 和 真实 函数 六 候 
定 基 分 类 器 的 错误 率 为 o 即 对 每 个 基 分 类 器 z 有 


P (hs (a) # f (2)) = €. (8.1) 
为 ”假设 集成 通过 简单 投票 法 结合 7 个 基 分 类 器 , 若 有 超过 半数 的 基 分 类 器 正确 
则 集成 分 类 就 正确 : 二 
| H(z) = sign (> hi æ) g (8.2) 
r Ni=! | 


假设 基 分 类 器 的 错误 率 相互 独立 ， 则 由 Hoeffding 不 等 式 可 知 , 集成 的 错误 


参见 习题 8.1. 
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| [7/2] 
x TX)) = 上 ieee 
PH(@) 4 10)= 2 (;)a-9 
< exp (—37 0 -20?) (8.3) 


上 式 显 示 出 , 随 着 集成 中 个 体 分 类 器 数目 了 的 增 大 , 集成 的 错误 率 将 指数 级 下 
降 , ATS. 

然而 我 们 必须 注意 到 , 上 面 的 分 析 有 一 个 关键 假设 : 基 学 习 器 的 误差 相互 
独立 . 在 现实 任务 中 , 个 体 学 习 器 是 为 解决 同一 个 问题 训练 出 来 的 , 它们 显然 不 
可 能 相互 独立 ! 事实 上 , 个 体 学 习 器 的 “准确 性 ”和 “多 样 性 ”本 身 就 存在 冲 
突 . 一 般 的 , 准确 性 很 高 之 后 , 要 增加 多 样 性 就 需 牺牲 准确 性 . 事实 上 , 如 何 产 
生 并 结合 “好 而 不 同 ” 的 个 体 学 习 器 , 恰 是 集成 学 习 研 究 的 核心 . 

根据 个 体 学 习 器 的 生成 方式 , 目前 的 集成 学 习 方法 大 致 可 分 为 两 大 类 , 即 
个 体 学 习 器 间 存 在 强 依赖 关系 、 必 须 串 行 生成 的 序列 化 方法 , 以 及 个 体 学 习 器 
间 不 存在 强 依赖 关系 、 可 同时 生成 的 并 行 化 方法 ; 前 者 的 代表 是 Boosting, 后 
者 的 代表 是 Bagging 和 “随机 森林 ”(Random Forest). 


8.2 Boosting 


Boosting 是 一 族 可 将 弱 学 习 器 提升 为 强 学 习 器 的 算法 . 这 族 算 法 的 工作 机 
制 类 似 : 先 从 初始 训练 集训 练 出 一 个 基 学 习 器 , 再 根据 基 学 习 器 的 表现 对 训练 
样本 分 布 进行 调整 , 使 得 先前 其 学习 器 做 错 的 训练 样本 在 后 续 受 到 更 多 关注 ， 
然后 基于 调整 后 的 样本 分 布 来 训练 下 一 个 基 学 习 器 ; 如 此 重复 进行 , 直至 基 学 
习 器 数目 达到 事先 指定 的 值 工 , 最 终 将 这 工 个 基 学 习 器 进行 加 权 结 合 . 

Boosting 族 算法 最 兰 名 的 代表 是 AdaBoost [Freund and Schapire, 1997], 
其 描述 如 图 8.3 所 示 , 其 中 yi € {一 1, +1}, f 是 真实 函数 . 

“ “AdaBoost 算法 有 多 种 推导 方式 ,比较 容易 理解 的 是 基于 “加 性 模 

AI” (additive model), 即 基 学 习 器 的 线性 组 合 


T 
来 最 小 化 指数 损 KRt (exponential loss funtion [Friedman et al., 2000] 


exp(H |D= Eepe AAE, (8.5) 
E A con HOOOnao 
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初始 化 样本 权 值 分 布 . 
基于 分 布 Di 从 数据 集 

D 中 训练 出 分 类 器 he. 
估计 hy 的 误差 . 


确定 分 类 器 ht 的 权重 


更 新 样本 分 布 , 其 中 Zi 
是 规范 化 因子 ， 以 确保 
Dipi 是 一 个 分 布 . 


输入 : UAR D = (æu), (22,2), 
基 学 习 算 法 L; 
训练 轮 数 工 . 
过 程 : | 
1: Dy(a) = 1/m. 
2: for t = 1,2,...,T do 
hi = L£(D,D:); 
et = Penn, (he(x) 天 f(x); 
if & > 0.5 then break 


1 一 Et \. 
Et , 


- (Lm, Um) Y, 


ey 


a, = 5 ln 


if he(w) = f(a) 
if h(x) # f(x) 


exp(—az), 
ce septa), 


_ Di(w)exp(—arr f (w)he(@)) 
Zt 


Di (a) 
Gea 


8: end for 
输出 : H(a) = sign aS athe(z)) 


8.3 AdaBoost 算 法 


车 H (x) 能 令 指数 损失 函数 最 小 化 , 则 考虑 式 (8.5) 对 A(x) 的 偏 导 


ta AD ae 7 _ 
=o Hæ P( f(a) =1| a) +e" P(f(w)=—-1|x), (8.6) 
令 式 (8.6) 为 零 可 解 得 
_)_ 1, P(f(2) =1| 2) 
PO =a Pla) ==1 Ta) = 
因此 , 有 
| P(jf(z) = 1|z) 
sign (H (a) ) = sign n (5 In „uaia ) 
这 里 忽略 2) = 
La) = PU) = 11) E $ P(f(2) = 1| 2) > P(f(@) = -1 | 2) 
a -1, P(f(z)=1|%) < P(f(«) = -1 | æ) 
= arg max P(f(x2) = y | æ) ， (8.8) 


ye{—1,1} 


这 意味 着 sign (H(x)) 达到 了 贝 叶 斯 最 优 错 误 率 . 换言之 , 若 指数 损失 函数 最 小 


替代 损失 函数 的 “一 致 
性 ”参见 6.7 节 . 


化 , 则 分 类 错误 率 也 将 最 小 化 ; 这 说 明 指数 损失 函数 是 分 类 任务 原本 0/1 损失 
函数 的 一 致 的 (consistent) 替 代 损 失 函 数 . 由 于 这 个 替代 函数 有 更 好 的 数学 性 
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质 , 例如 它 是 连续 可 微 函 数 , 因此 我 们 用 它 替 代 0/1 损失 函数 作为 优化 目标 . 
在 AdaBoost 算 法 中 , 第 一 个 基 分 类 器 h 是 通过 直接 将 基 学 习 算法 用 于 初 
始 数据 分 布 而 得 ; 此 后 迭代 地 生成 hs 和 og, 当 基 分 类 器 h 基于 分 布 D, P 
该 基 分 类 器 的 权重 a 应 使 得 orh 最 小 化 指数 损失 函数 
texp (athi | D:) == ED, [crew 


= Eau, [e*I (f (a) = he (x)) + e™I (F (x) £ ht (æ))] 

=e Ponp (f (@) = he (2)) + e™ Penn: (f (x) # h (x)) 

=e %(1~e) tee , (8.9) 
其 中 6 = Ponp, (hi(z) A f(w)). 考虑 指数 损失 函数 的 导数 


OlLexp (athe | D:) = 
Oat 


令 式 (8.10) 为 零 可 解 得 


—e (1 一人) 十 ectet , (8.10) 


a, = = In (=) (8.11) 
t 
这 恰 是 图 8.3 中 算法 第 6 行 的 分 类 器 权重 更 新 公式 . 


AdaBoost 算法 在 获得 及 -1 之 后 样本 分 布 将 进行 调整 , 使 下 一 轮 的 基 学 习 
器 he 能 纠正 Hii 的 一 些 错误 . 理想 的 hy 能 纠正 Hi- 的 全 部 错误 , 即 最 小 化 


one 1+hy | D) = Es ple t9): @) +h) 


= Eaple fm -ise Fema] (8.12) 
注意 到 f(a) = A3() = 1, 式 (8.12) 可 使 用 e-fleyiee) 的 泰勒 展 式 近似 为 
lexp(Hy_1 + hi | D) ~ E By (1 — f(æ)h(æ2) + Fey) 
= oe Bs (1 — f(x)hi(£) + 3) . (8.13) 
于 是 , 理想 的 基 学 习 器 


h(x) = arg min lexp(He_-1 +h | D) 
h 
ww ai bot. com TO OO000 
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= = arg min Exp |e Oe 1(x) 0 — f(a)h(a) + 5) | 


= arg max Bap F fo) ©) f(a)h(a 中 


ef (w) Hi-1 (2) 
= = arg max Ea~p ee Ep pe Tema! ore Z)| ， (8.14) 
注意 到 卫 。 ple fF 1) 是 一 个 常数 令 Di 表示 一 个 分 布 
D(a)e—F(#)He-1(@) 
D(x) = ; (8.15) | 
则 根据 数学 期 望 的 定义 , 这 等 价 于 令 
7 o- f(2)Hi-1 (2) 
= arg max Egon, |f(x)h(a)] . (8.16) 
h l ee l 
由 f(a), h(a) € {-1, +1}, 有 
F(a)h(@) =1-21(f(@)#A(@)), (817) 
则 理想 的 基 学 习 器 
h(x) = arg min Earp, If (x) #h(ax))] . (8.18) 


由 此 可 见 , 理想 的 he 将 在 分 布 Pi 下 最 小 化 分 类 误差 . 因此 , 弱 分 类 器 将 基于 分 
Ai Di 来 训练 , 且 针对 Dy 的 分 类 误差 应 小 于 0.5. 这 在 一 定 程度 上 类 似 “ 残 差 有 
近 ” 的 思想 . 考虑 到 Di MD 的 关系 ,有 
| — f(x) He(x) 
Di41 (£) = Ee TOTES 
D (x) e~f(@)Ht-1(@) e-f (w)axhe(@) 
= Ex~p [e-f@)H@)] 


—f(x)He-1(@ 
= D; (x)- e _ f(g)orhi(w) Eo~D le (i ) 1( )] 


Bop eT » 89) 
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8.2 Boosting’ 


偏差 /方差 参见 2.5 节 . 
决策 树桩 即 单 层 决 策 树 
参见 4.3 节 . 


集成 的 规模 指 集成 中 包 
含 的 个 体 学 习 器 数目 . 
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这 恰 是 图 8.3 中 算法 第 7 行 的 样本 分 布 更 新 公式 . 


于 是 ,由 式 (8.11) 和 (8.19) 可 见 , 我 们 从 基于 加 性 模型 先 代 式 优化 指数 损失 
函数 的 角度 推导 出 了 图 8.3 的 AdaBoost 算法 . 


Boosting 算法 要 求 基 学 习 器 能 对 特定 的 数据 分 布 进行 学 习 , 这 可 通过 “ 重 
赋 权 法 ”(re-weighting) 实 施 , 即 在 训练 过 程 的 每 一 轮 中 , 根据 样本 分 布 为 每 个 
训练 样本 重新 赋予 一 个 权重 . 对 无 法 接受 带 权 样本 的 基 学 习 算 法 , 则 可 通过 
“ 重 采 样 法 ” (re-sampling) 来 处 理 ， 即 在 每 一 轮 学 习 中 , 根据 样本 分 布 对 训练 
集 重新 进行 采样 , 再 用 重 采 样 而 得 的 样本 集 对 基 学 习 器 进行 训练 . 一 般 而 言 , 这 


两 种 做 法 没有 显著 的 优 劣 差别 . 需 注意 的 是 , Boosting 算法 在 训练 的 每 一 轮 都 


要 检查 当前 生成 的 基 学 习 器 是 否 满足 基本 条 件 (例如 图 8.3 的 第 5 行 , 检查 当前 
基 分 类 器 是 否 是 比 随 机 猜测 好 ), 一 旦 条 件 不 满足 , 则 当前 基 学 习 器 即 被 抛弃 ， 
且 学 习 过 程 停止 . 在 此 种 情形 下 , 初始 设置 的 学 习 轮 数 开 也许 还 远 未 达到 , 可 能 
导致 最 终 集成 中 只 包含 很 少 的 基 学 习 器 而 性 能 不 佳 . 若 采 用 “ 重 采 样 法 ”, 则 


可 获得 “重启 动 ”机 会 以 避免 训练 过 程 过 早 停止 [Kohavi and Wolpert, 1996}, 
“ 即 在 抛弃 不 满足 条 件 的 当前 基 学 习 器 之 后 , 可 根据 当前 分 布 重新 对 训练 样本 进 


行 采样 ， 再 基于 新 的 采样 结果 重新 训练 出 基 学 习 器 ， 从 而 使 得 学 习 过 程 可 以 持 


从 偏差 -方差 分 解 的 角度 看 , Boosting 主要 关注 降低 偏差 , 因此 Boosting 
能 基于 泛 化 性 能 相当 能 的 学 习 器 构建 出 很 强 的 集成 . 我 们 以 决策 树桩 为 基 学 习 
器 , FER 4.5 的 西瓜 数据 集 3.00 上 运行 AdaBoost 算法 ， 人 


” 及 其 基 学 习 器 所 对 应 的 分 类 边界 如 图 8.4 所 示 . 





0. 2 ; ; 、 0.2 


(a) 3 个 基 学 习 器 (b) 5 个 基 学 习 器 (c) 11 个 基 学 习 器 


图 8.4 西瓜 数据 集 3. 0a 上 AdaBoost 集成 规模 为 3、5、11 时 , 集成 (红色 ) 与 基 学 习 
器 (黑色 ) 的 分 类 边界 . 
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Bagging 这 个 名 字 是 由 
Bootstrap AGGregatING 缩 
写 而 来 . 


即 每 个 基 学 习 器 使 用 相 
同 权重 的 投票 、 平 均 . 


样本 分 布 . 


Dos 是 自助 采样 产生 的 


8.3 Bagging 与 随机 森林 


由 8.1 节 可 知 , 欲 得 到 泛 化 性 能 强 的 集成 , 集成 中 的 个 体 学 习 器 应 尽 可 能 相 
互 独 立 ; 虽然 “独立 ”在 现实 任务 中 无 法 做 到 , 但 可 以 设法 使 基 学 习 器 尽 可 能 


”具有 较 大 的 差异 . 给 定 一 个 训练 数据 集 , 一 种 可 能 的 做 法 是 对 训练 样本 进行 采 - 


样 , 产生 出 若干 个 不 同 的 子 集 , 再 从 每 个 数据 子 集中 训练 出 一 个 基 学 习 器 . 这 
样 ,由 于 训练 数据 不 同 , 我 们 获得 的 基 学 习 器 可 望 具有 比较 大 的 差异 . 然而 , 为 
获得 好 的 集成 , 我 们 同时 还 希望 个 体 学 习 器 不 能 太 差 . 如 果 采 样 出 的 每 个 子 集 
都 完全 不 同 , 则 每 个 基 学 习 器 只 用 到 了 一 小 部 分 训练 数据 , 甚至 不 足以 进行 有 
效 学 习 , 这 显然 无 法 确保 产生 出 比较 好 的 基 学 习 器 , 为 解决 这 个 问题 , 我 们 可 考 
虑 使 用 相互 有 交 玲 的 采样 子 集 . 


8.3.1 Bagging 


Bagging [Breiman, 1996a] 是 并 行 式 集成 学 习 方法 最 著名 的 代表 . 从 名 字 即 
可 看 出 , 它 直 接 基 于 我 们 在 2.2.3 节 介 绍 过 的 自助 采样 法 (bootstrap sampling). 


给 定 包含 m 个 样本 的 数据 集 , 我 们 先 随 机 取出 一 个 样本 放 入 采样 集中 , 再 把 该 
样本 放 回 初始 数据 集 , 使 得 下 次 采样 时 该 样本 仍 有 可 能 被 选中 , 这 样 , 经 过 mm 


次 随机 采样 操作 , 我 们 得 到 含 m 个 样本 的 采样 集 , 初始 训练 集中 有 的 样本 在 采 
样 集 里 多 次 出 现 , 有 的 则 从 未 出 现 . 由 式 (2.1) 可 知 , 初始 训练 集中 约 有 63.2% 
的 样本 出 现在 采样 集中 

照 这 样 , 我 们 可 采样 出 工 个 含 m 个 训练 样本 的 采样 集 , 然后 基于 每 个 采样 
集训 练 出 一 个 基 学 习 器 ， 再 将 这 些 基 学 习 器 进行 结合 . x Bie Bagging 的 基本 
流程 . 在 对 预测 输出 进行 结合 时 , Bagging 通常 对 分 类 任务 使 用 简单 投票 法 , 对 
回归 任务 使 用 简单 平均 法 . 若 分 类 预测 时 出 现 两 个 类 收 到 同样 票数 的 情形 , 则 
最 简单 的 做 法 是 随机 选择 一 个 , 也 可 进一步 考察 学 习 器 投票 的 置信 度 来 确定 最 
终 胜 者 . Bagging 的 算法 描述 如 图 8.5 所 示 . 


mA: UAR D = eun (£2, 2) , (Em, Ym) $3 
基 学 习 算 法 £ 
训练 轮 数 工 . 

过 程 : 

= 1: fort =1,2,...,T do 

2: hi = L(D, Das) 

3: end for , 

输出 : H(zx) = arg i Per I(he(x) = y) 


图 8.5 E R 算法 
-ww ai bbt. com ooo0000 
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假定 基 学 习 器 的 计算 复杂 度 为 Olm), 则 Bagging 的 复杂 度 大 致 为 
T(O(m)+O(s)), 考虑 到 采样 与 投票 /平均 过 程 的 复杂 度 O(s) 很 小 , m T 
通常 是 一 个 不 太 大 的 常数 , 因此 , 训练 一 个 Bagging 集成 与 直接 使 用 基 学 习 算 
为 处 理 多 分 类 或 回归 任 法 训练 一 个 学 习 右 的 复杂 LF TMT, 这 说 明 Bagging 是 一 个 很 高 效 的 集成 学 习 算 
ney gic 法 . 另外 , 与 标准 AdaBoost 只 适用 于 二 PRIER A F], Bagging 能 不 经 修改 地 
[Zhou, 2012]. 用 于 多 分 类 、 回 归 等 任务 . 
” ”值得 一 提 的 是 , 自助 采样 过 程 还 给 Bagging 带 来 了 男 一 个 优点 : 由 于 每 个 
基 学 习 器 只 使 用 了 初始 训练 集中 约 63.2% 的 样本 , 剩 下 约 36.8% 的 样本 可 用 作 
验证 集 来 对 泛 化 性 能 进行 “ 包 外 估计 ”(out-of-bag estimate) [Breiman, 1996a; 
包 外 估计 参见 2.2.37. Wolpert and Macready, 1999]. 为 此 需 记录 每 个 基 学 习 器 所 使 用 的 训练 样本 . 
不 妨 令 Di 表示 hi 实际 使 用 的 训练 样本 集 , A> HO (ar) 表示 对 样本 z 的 包 外 预 
W, 即 仅 考 虑 那些 未 使 用 x 训练 的 基 学 习 器 在 zx 上 的 预测 , 有 


H°%(x) = argmax DU (hi(x) =y) -I(x ¢ Di), (8.20) 
IS fl 


则 Bagging 泛 化 误差 的 包 外 估计 为 


= D He) #0) (8.21) 
(2,y)ED 

事实 上 , 包 外 样本 还 有 许多 其 他 用 途 . 例如 当 基 学 习 器 是 决策 树 时 , 可 使 用 
包 外 样本 来 辅助 剪 枝 , 或 用 于 估计 决策 树 中 各 结 点 的 后 验 概率 以 辅助 对 零 训练 
样本 结 点 的 处 理 ; 当 基 学 习 器 是 神经 网 络 时 , 可 使 用 包 外 样本 来 辅助 早期 停止 

以 减 小 过 拟 合 风险 . 
A 从 偏差 -方差 分 解 的 角度 看 , Bagging 主要 关注 降低 方差 , 因此 它 在 不 前 枝 
a RM EE 决策 树 、 神 经 网 络 等 易 受 样本 扰动 的 学 习 器 上 效用 更 为 明显 , 我 们 以 基于 信息 
增益 划分 的 决策 树 为 基 学 习 器 ; 在 表 4.5 的 西瓜 数据 集 3.00 上 运行 Bagging 算 
法 , 不 同 规模 的 集成 及 其 基 学 习 器 所 对 应 的 分 类 边界 如 图 8.6 所 示 . 


8.3.2 随机 森林 


随机 森林 (Random Forest, 简称 RF) [Breiman, 2001la] 是 Bagging 的 一 个 
扩展 变 体 . RF 在 以 决策 树 为 基 学 习 器 构建 Bagging 集成 的 基础 上 , 进一步 在 
决策 树 的 训练 过 程 中 引入 了 随机 属性 选择 . 具体 来 说 , 传统 决策 树 在 选择 划分 
属性 时 是 在 当前 结 点 的 属性 集合 (假定 有 a 个 属性 ) 中 选择 一 个 最 优 属性 ; 而 在 


RF 中 ， 对 基 决 策 树 的 每 个 结 操 iaia: 结 点 的 属性 集合 中 随机 选择 一 个 包含 
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关于 样本 扰动 、 属 性 扰 


动 等 , 参见 8.5.3 节 . 





密度 密度 
(a) 3 个 基 学 习 a (b) 11 个 基 学 习 器 


8.6 西瓜 数据 集 3.0a 上 Bagging 集成 规模 为 3、5、11 时 , 集成 (红色 ) 与 基 学 习 
器 (黑色 ) 的 分 类 边界 . 


个 属性 的 子 集 , 然后 再 从 这 个 子 集 中 选择 一 个 最 优 属性 用 于 划分 . 这 里 的 参数 
k 控制 了 随机 性 的 引入 程度 : BS k= d, 则 基 决 策 树 的 构建 与 传统 决策 树 相 同 ; 
ES k = 1, 则 是 随机 选择 一 个 属性 用 于 划分 ; 一 般 情 况 下 , 推荐 值 k = logod 
[Breiman, 2001al. 

随机 森林 人 简单、 容易 实现 、 计 算 开 销 小 , 令 人 惊奇 的 是 , 它 在 很 多 现实 任 
务 中 展现 出 强大 的 性 能 , 被 誉 为 “代表 集成 学 习 技术 水 平 的 方法 ”. 可 以 看 出 ， 
随机 森林 对 Bagging 只 做 了 小 改动 , 但 是 与 Bagging 中 基 学 习 器 的 “多 样 性 ” 
仅 通 过 样本 扰动 (通过 对 初始 训练 集 采 样 ) 而 来 不 同 , 随机 森林 中 基 学 习 器 的 多 


样 性 不 仅 来 目 样 本 扰动 , 还 来 目 属性 扰动 , 这 就 使 得 最 终 集 成 的 泛 化 性 能 可 通 


过 个 体 学习 器 之 则 差异 度 的 增加 而 进一步 提升 . 

随机 和 森林 的 收敛 性 与 Bagging 相似 . 如 图 8.7 Bras, 随机 森林 的 起 始 性 能 
往往 相对 较 兰 , 特别 是 在 集成 中 只 包含 一 个 基 学 习 嚣 时 . 这 很 容易 理解 , 因为 通 
过 引入 属性 扰动 , 随机 森林 中 个 体 学 习 器 的 性 能 往往 有 所 降低 . 然而 , 随 着 个 体 
































0.028; 
一 一 随机 森林 Sy 一 随机 森林 
aia Bagging 0.024 --~-- Bagging 
Af st 0.020 
Bug m4 
rs 
未 #2 0.016 
ma 
= 有 0.012 
0.0085 oy 
oes are 
0 
10 10! 10 “10 
基 分 类 器 数量 基 分 类 器 数量 
(a) glass 数据 集 (b) auto-mpg 数据 集 


图 8.7 在 两 个 UCI 数据 上 , 集成 规模 对 随机 森林 与 Bagging 的 影响 
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Jae Ol SE, 随机 森林 通常 会 收敛 到 更 低 的 沁 化 误差 . 值得 一 提 的 是 , 随 
机 森林 的 训练 效率 常 优 于 Bagging, 因为 在 个 体 决 策 树 的 构建 过 程 中 , Bagging 
使 用 的 是 “确定 型 ”决策 树 , 在 选择 划分 属性 时 要 对 结 扣 的 所 有 属性 进行 考察 ， 
而 随机 森林 使 用 的 “随机 型 ”决策 树 则 只 需 考 察 一 个 属性 子 集 . 


8.4 结合 策略 


学 习 磁 结合 可 能 会 从 三 个 方面 带 来 好 处 [Dietterich, 2000]: 首先 , 从 统计 
的 方面 来 看 , 由 于 学 习 任务 的 假设 空间 往往 很 大 , 可 能 有 多 个 假设 在 训练 集 上 
达到 同等 性 能 , 此 时 知 使 用 单 学 习 器 可 能 因 误 选 而 导致 泛 化 性 能 不 佳 , 结合 3 
个 学 习 莫 则 会 减 小 这 一 风险 ; 第 二 , 从 计算 的 方面 来 看 , 学 习 算 法 往往 会 陷入 局 
部 极 小 , 有 的 局 部 极 小 点 所 对 应 的 泛 化 性 能 可 能 很 糟糕 , 而 通过 多 次 运行 之 后 
进行 结合 , 可 降低 陷入 糖 糕 局 部 极 小 点 的 风险 ; 第 三 , 从 表示 的 方面 来 看 , 某 些 
学 习 任务 的 真实 假设 可 能 不 在 当前 学 习 算 法 所 考虑 的 假设 空间 中 , 此 时 大 使 用 
单 学 习 器 则 肯定 无 效 , 而 通过 结合 多 个 学 习 融 , 由 十 相 应 的 假设 空间 有 所 扩大 ， 
有 可 能 学 得 更 好 的 近似 . 图 8.8 给 出 了 一 个 直观 示意 图 . 


同等 性 能 的 假设 假设 空间 





(a) 统计 的 原因 (b) 计算 的 原因 (c) 表示 的 原因 
图 8.8 学 习 器 结合 可 能 从 三 个 方面 带 来 好 处 [Dietterich, 2000] 
假定 集成 包含 工 个 基 学 习 器 fh, ho,..., hr}, 其 中 hi 在 示例 x 上 的 输出 
为 hi(x). 本 市 介绍 几 种 对 hi 进行 结合 的 常见 策略 . 


8.4.1 平均 法 
对 数值 型 输出 hile) © R, 最 常见 的 结合 策略 是 使 用 平均 法 (averaging). 


e 何 单 平均 法 (simple averaging) 


T 
1 
H(z) = = 2 hil) , (8.22) 
wwaibbt.com ooo0nong 7 





182 


Breiman [1996b] 在 研究 
Stacking 回归 时 发 现 , 必须 
使 用 非 负 权重 才能 确保 集 
成 性 能 优 于 单一 最 佳 个 体 
学 习 器 , 因此 在 集成 学 习 
中 一 般 对 学 习 器 的 权重 施 
以 非 负 约束 . 


例如 估计 出 个 体 学 习 器 
的 误差 , 然后 令 权 重大 小 
”与 误差 大 小 成 反比 . 


e 加 权 平 均 法 (weighted averaging) ; 
o g 
H £) = X wihi(a) 。 (8.23) 
i=1 E 


, | 机 
?2 一 工 


显然 , 简单 平均 法 是 加 权 平 均 法 令 w = 1/T 的 特例 . 加 权 平 均 法 在 二 十 世 


纪 五 十 年 代 已 被 广泛 使 用 [Markowitz, 1952], [Perrone and Cooper, 1993] 正式 


将 其 用 于 集成 学 习 . 它 在 集成 学 习 中 具有 特别 的 意义 , 集成 学 习 中 的 各 种 结合 
方法 都 可 视 为 其 特例 或 变 体 . 事实 上 , 加 权 平 均 法 可 认为 是 集成 学 习 研究 的 基 
本 出 发 点 , 对 给 定 的 基 学 习 器 , 不 同 的 集成 学 习 方 法 可 视 为 通过 不 同 的 方式 来 
确定 加 权 平 均 法 中 的 基 学 习 器 权重 . 

加 权 平 均 法 的 权重 一 般 是 从 训练 数据 中 学 习 而 得 , 现实 任务 中 的 训练 样本 
通常 不 充分 或 存在 噪声 , 这 将 使 得 学 出 的 权重 不 完全 可 靠 . 尤其 是 对 规模 比较 
大 的 集成 来 说 , 要 学 习 的 权重 比较 多 , 较 容易 导致 过 拟 合 . 因此 , 实验 和 应 用 均 
显示 出 , 加 权 平 均 法 未 必 一 定 优 于 简单 平均 法 [Xu et al., 1992; Ho et al., 1994; 
Kittler et al., 1998]. 一 般 而 言 , 在 个 体 学 习 器 性 能 相差 较 大 时 宜 使 用 加 权 平 均 
法 , 而 在 个 体 学 习 器 性 和 s 相 近 时 宣 使 用 简单 平均 法 . 


8.4.2 投票 法 


对 分 类 任务 来 说 , 学 习 器 hi 将 从 类 别 标记 集合 {c1, c2;..., cw} 中 预测 出 一 
个 标记 , 最 常见 的 结合 策略 是 使 用 投票 法 (voting). 为 便于 讨论 , 我 们 将 hi EF 
本 z 上 的 预测 输出 表示 为 一 个 N 维 向 量 (hi (æ); h?(a);...;hN(w)), 其 中 hi (x) 
Fé hi 在 类 别 标记 cj 上 的 输出 . | 


o 绝对 多 数 投票 法 (majority voting) 


H(z) | ore if 2 h (x) > 0.5 s5 > hë (æ) ; (8.24) 


reject, N 
即 车 某 标记 得 票 过 半数 ， 则 预测 为 该 标记 ; ANEAN. 
o 相对 多 数 投票 SA (plurality voting) 


| H (x) = <= Cre mies ye hi (x) (8.25) 
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即 预 测 为 得 票 最 多 的 标记 , 知 同 时 有 多 个 标记 获 最 高 票 , 则 从 中 随机 选取 


e 加 权 投 票 法 (weighted voting) 


H(z) = (8.26) 


Carg max Dl wi hi (a) . 
j 


T: 
与 加 权 平 均 法 类 似 ， wi 是 hi 的 权重 ， 通常 w; > 0, > wy = 1. 
i=l 


标准 的 绝对 多 数 投票 法 (8.24) 提 供 了 “拒绝 预测 ”选项 , 这 在 可 靠 性 要 求 
较 高 的 学 习 任 务 中 是 一 个 很 好 的 机 制 . 但 若 学 习 任务 要 求 必 须 提供 预测 结果 ， 
则 绝对 多 数 投票 法 将 退化 为 相对 多 数 投票 法 . 因此 , 在 不 允许 拒绝 预测 的 任务 

KORE 关中 ,绝对 多 数 、 相 对 多 数 投票 法 统称 为 “多 数 投票 法 ”. / 

BAA majority voting, & 式 (8.24)~(8.26) 没 有 限制 个 体 学 习 器 输出 值 的 类 型 . 在 现实 任务 中 , 不 同 
类 型 个 体 学 习 器 可 能 产生 不 同类 型 的 由 (z) 值 , 常见 的 有 : 


- 类 标记 : hj(z) € {0,1}, 若 hi 将 样本 z 预测 为 类 别 c; 则 取 值 为 1, 否则 为 
0. 使 用 类 标记 的 投票 亦 称 “ 硬 投票 ”(hard voting). 


- 类 概率 : h(x) € [0,1], 相当 于 对 后 验 概率 Ple | z) 的 一 个 估计 . 使 用 类 
概率 的 投票 亦 称 “ 软 投票 ”(soft voting). 


不 同类 型 的 hd (ae) 值 不 能 混用 .对 一 些 能 在 预测 出 类 别 标记 的 同时 产生 
分 类 置信 度 的 学 习 器 , 其 分 类 置信 度 可 转化 为 类 概率 使 用 ， 若 此 类 值 未 进 
行规 范 化 , 例如 支持 向 量 机 的 分 类 间隔 值 , 则 必须 使 用 一 些 技术 如 Platt 缩 
放 (Platt scaling) [Platt，2000]、 等 分 回归 (isotonic regression) [Zadrozny and 
Blkan, 2001] 等 进行 “校准 ”(calibration) 后 才能 作为 类 概率 使 用 有趣 的 是 ， 
虽然 分 类 器 估计 出 的 类 概率 值 一 般 都 不 太 准确 , 但 基于 类 概率 进行 结合 却 往往 
比 直接 基于 类 标记 进行 结合 性 能 更 好 . 需 注意 的 是 , 若 基 学 习 器 的 类 型 不 同 , M 
RNa ON 其 类 概率 值 不 能 直接 进行 比较 ; 在 此 种 情形 下 , 通常 可 将 类 概率 输出 转化 为 类 
/ 标记 输出 (例如 将 类 概率 输出 最 大 的 hd (ae) 设 为 1, 其 他 设 为 0) 然后 再 投票 
8.4.3 学 习 法 
当 训 练 数 据 很 多 时 , 一 种 更 为 强大 的 结合 策略 是 使 用 “学 习 法 ”, 即 通过 
ee a ei 另 一 个 学 习 器 来 进行 结合 . Stacking [Wolpert, 1992; Breiman, 1996b] 是 学 习 法 
Ay RAL A LRT HY 的 典型 代表 这 里 我 们 把 个 体 学 习 咒 称 为 初级 学 习 器 用 于 结合 的 学 习 器 称 为 
变 体 或 特例 ， 它 es l 
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初级 学 习 器 也 可 是 同 质 
的 . 


使 用 初级 学 习 算 法 Lt 


” 产生 初级 学 习 器 hy. 


生成 次 级 训练 集 ， 


在 D' 上 用 次 级 学 习 算 
法 产生 次 级 学 习 器 有 h/. 


MLR 是 基于 线性 回归 的 
BRE, 它 对 每 个 类 分 别 
进行 线性 回归 ,属于 该 类 
的 训练 样 例 所 对 应 的 输出 
被 置 为 1 其 他 类 置 为 0; 
测试 示例 将 被 分 给 输出 值 
最 大 的 类 . 


WEKA 中 的 StackingC - 


算法 就 是 这 样 实现 的 . 


属性 , 用 多 啊 应 线性 回归 (Multi-response Linear Regression, fal # 


Stacking 先 从 初始 数据 集训 练 出 初级 学 习 器 , 然后 “生成 ”一 个 新 数据 集 
用 于 训练 次 级 学 习 器 . 在 这 个 新 数据 集中 , 初级 学 习 器 的 输出 被 当 作 样 例 输入 
特征 , 而 初始 样本 的 标记 仍 被 当 作 样 例 标记 . Stacking 的 算法 描述 如 图 8.9 所 
示 , 这 里 我 们 假定 初级 学 习 器 使 用 不 同学 习 算法 产生 , 即 初级 集成 是 异 质 的 . 


/ WA: 训练 集 D = {(x1,y1), (22,y2),…… 
初级 学 习 算 法 D> 
次 级 学 习 算 法 L. 


, (Em, Ym) ¥; | 


ki 


for t = 1,2,..., T do 


“forts Zasa 
Zit = h(x); 
end for 
D sD Wy 
10: end for 
11: W = £(D"); 
输出 : H(ax) = h’(hi(x), ho(x),.. 


. © 
= 
-F 
o 
m 


((zi, BiZ... ) ZiT), yi); 


., hr(æ)) 


8.9 Stacking 算法 


在 训练 阶段 , 次 级 训练 集 是 利用 初级 学 习 器 产生 的 , 若 直接 用 初级 学 习 器 
的 训练 集 来 产生 次 级 训练 集 , 则 过 拟 合 风险 会 比较 大 ; 因此 , 一 般 是 通过 使 用 交 
又 验证 或 留 一 法 这 样 的 方式 , 用 训练 初级 学 习 器 未 使 用 的 样本 来 产生 次 级 学 习 
器 的 训练 样本 . 以 折 交 叉 验证 为 例 , 初始 训练 集 D 被 随机 划分 为 个 大 小 相 
似 的 集合 Di, D2,.…., Di. 令 Di 和 万 | = D\ D; 分 别 表 示 第 j ie 
WAR. 给 定 工 个 初级 学 习 算法 ， ee pn? 通过 在 D; 上 使 用 第 t 个 
习 算 法 而 得 . 对 Di 中 每 个 样本 mi 令 za = hO (x), 则 由 mi a 
练 样 例 的 示例 部 分 为 zi = (zi1; zi2; .…; air) 标记 部 分 为 yi 于 是 , 在 整个 交叉 
验证 过 程 结束 后 , 从 这 工 个 初级 学 习 器 产生 的 次 级 训练 集 是 D' = { (zi, yi) a, 
然后 D! 将 用 于 训练 次 级 学 习 器 . 

次 级 学 习 器 的 输入 属性 表示 和 次 级 学 习 算法 对 Stacking 集成 的 泛 化 性 能 
有 很 大 影响 . 有 研究 表明 , 将 初级 学 习 器 的 输出 类 概率 作为 次 级 学 习 器 的 输入 
称 MLR) 作为 
次 级 学 习 算 法 效果 较 好 [Ting and Witten, nee 在 MLR 中 使 用 不 同 的 属 性 


集 更 佳 [Seewald, 2002]. 
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贝 叶 斯 模型 平均 (Bayes Model Averaging, 简称 BMA) 基 于 后 验 概率 来 为 
不 同 模型 赋予 权重 , 可 视 为 加 权 平 均 法 的 一 种 特殊 实现 . [Clarke, 2003] 对 
Stacking 和 BMA 进行 了 比较 . 理论 上 来 说 , 若 数 据 生 成 模型 怡 在 当前 考虑 的 
模型 中 , 且 数 据 噪声 很 少 , 则 BMA 不 差 于 Stacking; 然而 , 在 现实 应 用 中 无 法 
确保 数据 生成 模型 一 定 在 当前 考虑 的 模型 中 , 甚至 可 能 难以 用 当前 考虑 的 模型 
来 进行 近似 , 因此 , Stacking 通常 优 于 BMA, 因为 其 鲁 棒 性 比 BMA 更 好 , mE 
BMA 对 模型 近似 误差 非常 敏感 | | 


8.5 多 样 性 


8.5.1 误差 -分 歧 分 解 


8.1 节 提 到 , 欲 构建 泛 化 能 力 强 的 集成 , 个 体 学 习 器 应 “好 而 不 同 ”. 现在 
我 们 来 做 一 个 简单 的 理论 分 析 . 


假定 我 们 用 个 体 学 习 器 hi, ho.. 过 加 权 平 均 法 (8.23) 结 合 产 生 的 
集成 来 完成 回归 学 习 任 务 f: R 一 R. po ZT, 定义 学 习 器 hi 的 “分 
ke” (ambiguity) A a- 
Alhi | æ) = (hile) -Fo (827) 


MUSE BGA “pie” Æ 
A(h | x) “ze” wyA(h; | 2) 
+, =>... (hy (a) 一 H(a))?. (8.28) 
显然, 这 里 的 “分 歧 ” 项 表征 了 个 体 学 习 器 在 样本 z 上 的 不 一 致 性 , 即 在 
一 定 程 度 上 反映 了 个 体 学 习 器 的 多 样 性 . 个 体 学 习 器 h 和 集成 五 的 平方 误差 


分 别 为 
| E(hi | æ) = (f(z) — hi(2))* ， (8.29) 


E(H | x) = (f(@) - H(@))’ - (8.30) 
aia Dila wi E(u | 2) 表示 个 体 学 习 器 误差 的 加 权 均 信 有 


A(h | x) = wo | £x) — E(H | x) 


= E(h | £) — E(H | z) . (8.31) 
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这 里 我 们 用 E; 和 A; 简 
”化 表示 E(h;) 和 A(h;). 


这 里 我 们 用 巨 简化 表示 
E(H). 


亦 称 “ 差 异性 度量 ”， 


式 (8.31) 对 所 有 样本 x 均 成 立 , 令 p(x) 表示 样本 的 概率 密度 , 则 在 全 样本 


上 有 
T | T . 
Du | Alh | x)\plx)dxz = Dw [EC | a) p(a)da - feu | x)p(x)da . 
?三 并 I=) 
| (8.32) 
类 似 的 , 个 体 学 习 器 hy 在 全 样本 上 的 泛 化 误差 和 分 歧 项 分 别 为 
B= | pulzjplejan， (8.33) 
A= | Alu |2)plæ)de. (8.34) 
集成 的 泛 化 误差 为 | 
pe J AET (8.35) 


将 式 (8.33)~(8.35) 代 入 式 (8.32), HS E = >， wB; 表示 个 体 学 习 器 泛 


化 误差 的 加 权 均 值 , A= Di wiAi 表示 个 体 学 习 器 的 加 权 分 歧 值 , 有 


五 = 五 一 4. (8.36) 


_ 式 (8.36) 这 个 漂亮 的 式 子 明确 提示 出 : 个 体 学 习 器 准确 性 越 高 、 多 样 性 越 
K, 则 集成 越 好 . 上 面 这 个 分 析 首 先 由 [Krogh and Vedelsby, 1995] 给 出 , 称 为 
“误差 -分 歧 分 解 ”(error-ambiguity decomposition). 


至 此 , 读者 可 能 很 高 兴 : 我 们 直接 把 E- 忒 作为 优化 目标 来 求解 , 不 就 能 
得 到 最 优 的 集成 了 ? 遗憾 的 是 , 在 现实 任务 中 很 难 直接 对 五 - A BEAT ORL, 不 
仅 由 于 它们 是 定义 在 整个 样本 空间 上 , 还 由 于 亏 不 是 一 个 可 直接 操作 的 多 样 性 
度量 , 它 仅 在 集成 构造 好 之 后 才能 进行 估计 . 此 外 需 注意 的 是 , 上 面 的 推导 过 程 
只 适用 于 回归 学 习 , 难以 直接 推广 到 分 类 学 习 任务 上 去 . 


8.5.2 多 样 性 度量 


顾名思义 , 多 样 性 度量 (diversity measure) 是 用 于 度量 集成 中 个 体 分 类 器 的 
多 样 性 , 即 估算 个 体 学 习 器 的 多 样 化 程度 . 典型 做 法 是 考虑 个 体 分 类 器 的 两 两 


相似 /不 相似 性 . 
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给 定数 据 集 D= {(x1, yı), (xo, y2), e.) (2m, Ym) }; 对 二 分 类 任务 ， Yi E 
EAER RRR {一 1, 十 1}, 分 类 器 hi 与 h; 的 预测 结果 列 联 表 (contingency table) 为 





其 中 , a 表示 hi 与 hj 均 预 测 为 正 类 的 样本 数目 ; DW Ad 含义 由 此 类 推 ; 
We m. 基于 这 个 列 联 表 , 下 面 给 出 一 些 常 见 的 多 样 性 度量 . 


-e 不 合 度量 (disagreement measure) 


b+c 





disij 一 (8.37) 
disi; 的 值 域 为 [0, 1]. 值 越 大 则 多 样 性 越 大 . 
e 相关 系数 (correlation coefficient) 
ad — bc 
er 8.38 
a A 


pij 的 值 域 为 [-1,1]. Æ hi 与 hj 无 关 , 则 值 为 0; Æ hi 与 hy 正 相关 则 值 
为 正 , EWAH. 


e。Q- 统 计量 (Q-statistic) | 
ad — bc 








Qi = — jp (8.39) 
Qi 与 相关 系数 py 的 符号 相同 , E |@ij| < |pijl. 
e 有- 统计 量 (k-statistic) | 
= =a l (8.40) 


其 中 , p 是 两 个 分 类 器 取得 一 致 的 概率 ; p 是 两 个 分 类 器 偶然 达成 一 至 
的 概率 , 它们 可 由 数据 集 D 估算 : 





Pi = — \ | (8.41) 
p= ee a, (8.42) 


m2 


若 分 类 器 hi 与 和 m, Ml = 1, 关 它 们 仅 是 偶然 达成 到 


Rig 











Wa = 0. ;通常 为 非 负 值 , 仅 在 hi 与 hj 达成 一 致 的 概率 甚至 低 于 偶然 
性 的 情况 下 取 负 值 . 


以 上 介绍 的 都 是 “成 对 型 ”(pairwise) 多 样 性 度量 , 它们 可 以 容易 地 通过 2 
维 图 绘制 出 来 . 例如 著名 的 “误差 图 ”, 研 是 将 每 一 对 分 类 器 作为 图 上 的 一 
个 点 , 横 坐 标 是 这 对 分 类 器 的 & 值 , 纵 坐 标 是 它们 的 平均 误差 , 图 8.10 给 出 了 
一 个 例子 . 显然 , 数据 点 云 的 位 置 越 高 , 则 个 体 分 类 器 准确 性 越 低 ; 点 云 的 位 置 
EAR, 则 个 体 学 习 器 的 多 样 性 越 小 . 
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图 8.10 Æ UCI 数据 集 tic-tac-toe 上 的 -误差 图 . 每 个 集成 会 50 棵 C4.5 决策 树 


8.5.3 多 样 性 增强 


在 集成 学 习 中 需 有 效 地 生成 多 样 性 大 的 个 体 学 习 器 . 与 简单 地 直接 用 初始 
数据 训练 出 个 体 学 习 器 相 比 , 如 何 增强 多 样 性 呢 ? 一 般 思 路 是 在 学 习 过 程 中 引 
入 随机 性 , 常见 做 法 主要 是 对 数据 样本 、 输 入 属性 、 输 出 表示 、 算 法 参数 进行 
扰动 . 

o 数据 样本 扰动 

给 定 初始 数据 集 , 可 从 中 产生 出 不 同 的 数据 子 集 , 再 利用 不 同 的 数据 子 集 
训练 出 不 同 的 个 体 学 习 器 . 数据 样本 扰动 通常 是 基于 采样 法 , 例如 在 Bagging 
中 使 用 目 助 采 样 , 在 AdaBoost 中 使 用 序列 采样 .此 类 做 法 简单 融 效 , 使 用 最 
广 . 对 很 多 常见 的 基 学 习 占 , 例如 决策 树 、 神 经 网 络 等 , 训练 样本 稍 加 变化 就 会 
导致 学 习 器 有 显著 变动 , 数据 样本 扰动 法 对 这 样 的 “不 稳定 基 学 习 器 ”很 有 效 ; 
然而 , 有 一 些 基 学 习 絮 对 数据 样本 的 扰动 不 敏感 , POR PES ae SCE RI 
机 、 朴 素 贝 叶 期、 有 近邻 学 习 峰 等 , ROPE AES DS a RAY Tak cE FE OJ ait (stable 


base learner), REMA a = AE ULAT Fe CEA Ta EH 输入 属性 扰动 等 其 他 机 制 |. 
ww ai bbt. com 00000 








8.5 ”多 样 性 


子 空间 一 般 指 从 初始 的 
高 维 属性 空间 投影 产生 的 
低 维 属性 空间 , 描述 低 维 
空间 的 属性 是 通过 初始 属 
性 投影 变换 而 得 ， 未 必 是 
初始 属性 . 参见 第 10 Ë. 


di 小 于 初始 属性 数 d. 


万 包含 d 个 随机 选取 
的 属性 ，Dz 仅 保 留 五 中 
的 属性 . 


ECOC 参见 3.5 节 . 
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° 输入 属性 扰动 | 

训练 样本 通常 由 一 组 属性 描述 ， 不 同 的 “ 子 空间 ”(subspace, 即 属性 子 
集 ) 提 供 了 观察 数据 的 不 同 视角 . 显然 , 从 不 同 子 空间 训练 出 的 个 体 学 习 器 必然 
有 所 不 同 . 著名 的 随机 子 空间 (random subspace) 算 法 [Ho, 1998] 就 依赖 于 输入 


”属性 扰动 , 该 算法 从 初始 属性 集中 抽取 出 若干 个 属性 子 集 , 再 基于 每 个 属性 子 


集训 练 一 个 基 学 习 器 , 算法 描述 如 图 8.11 所 示 . 对 包含 大 量 宛 余 属性 的 数据 
在 子 空间 中 训练 个 体 学 习 器 不 仅 能 产生 多 样 性 大 的 个 体 , 还 会 因 属性 数 的 减少 
而 大 幅 节省 时 间 开 销 , 同时 , 由 于 宛 余 属性 多 , 减少 一 些 属 性 后 训练 出 的 个 体 学 
习 器 也 不 至 于 太 差 . 若 数据 只 包含 少量 属性 , 或 者 宛 余 属性 很 少 , 则 不 宜 使 用 输 
入 属性 扰动 法 . 


输入 : 训练 集 D= {(x1, y1), (£2, Y2), AOT (Dvn) ts 
基 学 习 算 法 2; | 
基 学 习 器 数 工 ; 
子 空间 属性 数 d. 
过 程 : 
1: for t = 1,2,...,T do 
2: F;=RS(D,d’) 
3: Di Mapr (D) 
4: hy = &(D;) 
5: end for 


输出 : H(z) = arg max 35, I (he (Mapr (2)) = y) 
y 


图 8.11 随机 子 空间 算法 


o 输出 表示 扰动 


此 类 做 法 的 基本 思路 是 对 输出 表示 进行 操纵 以 增强 多 样 性 . 可 对 训练 样本 
的 类 标记 稍 作 变 动 , 如 “翻转 法 ”(Flipping Output) [Breiman, 2000] 随机 改变 
一 些 训练 样本 的 标记 ; 也 可 对 输出 表示 进行 转化 , 如 “输出 调制 法 ”(Output 
Smearing) [Breiman, 2000] 将 分 类 输出 转化 为 回归 输出 后 构建 个 体 学 习 器 ; 
还 可 将 原 任务 拆 解 为 多 个 可 同时 求解 的 子 任务 , 如 ECOC 法 [Dietterich and 
Bakiri, 1995] 利用 纠 错 输出 码 将 多 分 类 任务 拆 解 为 一 系列 二 分 类 任务 来 训练 基 
FAAR. 


o 算法 参数 扰动 
” 基 学 习 算 法 一 般 都 有 参数 需 进 行 设置 , 例如 神经 网 络 的 隐 层 神经 元 数 、 初 


始 连 接 权 值 等, 中 这 随机 设置 不 同 的 参数 , 往往 可 产生 差别 较 大 的 个 体 学 习 器 


ai bbt. com [] f] 1] 
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-例如 “ 负 相 关 法 ”(Negative Correlation) [Liu and Yao, 1999] 显 式 地 通过 正则 


化 项 来 强制 个 体 神经 网 络 使 用 不 同 的 参数 . 对 参数 较 少 的 算法 , 可 通过 将 其 学 


_ 习 过 程 中 某 些 环节 用 其 他 类 似 方式 代替 , 从 而 达到 扰动 的 目的 , 例如 可 将 决策 


树 使 用 的 属性 选择 机 制 替 换 成 其 他 的 属性 选择 机 制 . 值得 指出 的 是 , 使 用 单一 
学 习 器 时 通常 需 使 用 交叉 验证 等 方法 来 确定 参数 值 , 这 事实 上 已 使 用 了 不 同 参 
数 训 练 出 多 个 学 习 器 , 只 不 过 最 终 仅 选择 其 中 一 个 学 习 器 进行 使 用 , 而 集成 学 
习 则 相当 于 把 这 些 学 习 器 都 利用 起 来 ; 由 此 也 可 看 出 , 集成 学 习 技术 的 实际 计 
算 开销 并 不 比 使 用 单一 学 习 器 大 很 多 . 


不 同 的 多 样 性 增强 机 制 可 同时 使 用 , 例如 8.3.2 节 介 绍 的 随机 和 森林 中 同 


时 使 用 了 数据 样本 扰动 和 输入 属性 扰动 ,有些 方 法 甚至 同时 使 用 了 更 多 机 制 


[Zhou, 2012]. 


8.6 阅读 材料 


集成 学 习 方 面 的 主要 推荐 读物 是 [Zhou, 2012], 本 章 提 及 的 所 有 内 容 在 
该 书 中 都 有 更 深入 详细 的 介绍 . [Kuncheva, 2004; Rokach, 2010b] 可 供 参 考 . 


_[Schapire and Freund, 2012] 则 是 专门 关于 Boosting 的 著作 . 


Boosting 源 于 [Schapire, 1990] 对 [Kearns and Valiant, 1989] E E AY “35 
学 习 是 否 等 价 于 强 学 习 ” 这 个 重要 理论 问题 的 构造 性 证 明 . 最 初 的 Boosting 
算法 仅 有 理论 意义 , 经 数 年 努力 后 .[Freund and Schapire, 1997] 提出 AdaBoost， 
并 因此 获得 理论 计算 机 科学 方面 的 重要 奖项 -一 哥 德 尔 奖 . 不 同 集成 学 习 方 


”法 的 工作 机 理 和 理论 性 质 往往 有 显著 不 同 , 例如 从 偏差 -方差 分 解 的 角度 看 ， 


“为 什么 AdaBoost 在 训 
练 误差 达到 零 之 后 继续 训 
练 仍 能 提高 泛 化 性 能 ”; 
若 一 直 训 练 下 去 , 过 拟 合 
最 终 仍 会 出 现 . — 


Boosting 主要 关注 降低 偏差 , 而 Bagging 主要 关注 降低 方差 . MultiBoosting 
[Webb, 2000] 等 方法 尝试 将 二 者 的 优点 加 以 结合 . 关于 Boosting 和 Bagging 已 
有 很 多 理论 研究 结果 , 可 参阅 [Zhou, 2012] 第 2~3 章 . 

8.2 节 给 出 的 AdaBoost 推导 源 于 “统计 视角 ”(statistical view) [Fried- 
man et al., 2000], 此 派 理论 认为 AdaBoost 实质 上 是 基于 加 性 模型 (additive 
model) LASS {AF BUA TCE IRE Hh Ta Bin PA. 受 此 局 发 , A a 
FERRAN 其 他 优化 方法 ， 产生 了 GradientBoosting [Friedman, 2001|、LPBoost 
[Demiriz et al., 2008] 等 变 体 算法 . 然而 ， 这 派 理论 产生 的 推论 与 AdaBoost 实际 
行为 有 相当 大 的 差别 [Mease and Wyner, 2008], 尤其 是 它 不 能 解释 AdaBoost 
为 什么 没有 过 拟 合 这 个 重要 现象 , 因此 不 少 人 认为 , 统计 视角 本 身 虽 很 有 意义 ， 
但 其 阐释 的 是 一 个 与 AdaBoost 相似 的 学 习 过 程 而 并 非 AdaBoost 本 身 . “ 间 


隔 理论 ”(margin theory) [Schapire et al., 1998] 能 直观 地 解释 这 个 重要 现象 ， 
ww ai bbt. com FOU OOO0 0 





8.6 ”阅读 材料 


对 并 行 化 集成 的 修剪 亦 
称 “ 选 择 性 集成 ” (selec- 
tive ensemble), 但 现在 一 
般 将 选择 性 集成 用 作 集成 
修剪 的 同 义 语 , 亦 称 “ 集 
成 选择 ” (ensemble selec- 


tion). 
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但 过 去 15 年 中 一 直 存 有 争论, 直到 最 近 的 研究 结果 使 它 最 终 得 以 确立 , 并 对 新 
型 学 习 方法 的 设计 给 出 了 启示 ; 相关 内 容 可 参阅 [Zhou, 2014]. 

本 章 仅 介绍 了 最 基本 的 几 种 结合 方法 , 常见 的 还 有 基于 D-S 证 据 理 论 的 方 
法 、 动 态 分 类 器 选择 、 混 合 专家 (mixture of experts) 等 . 本 章 仅 介 绍 了 成 对 型 
多 样 性 度量 . [Kuncheva and Whitaker, 2003; Tang et al., 2006] 显示 出 , WA 
多 样 性 度量 都 存在 显著 缺陷 . 如 何 理解 多 样 性 , 被 认为 是 集成 学 习 中 的 圣杯 问 
题 . 关于 结合 方法 和 多 样 性 方面 的 内 容 , 可 参阅 [Zhou, 2012] 第 4~5 章 . 

在 集成 产生 之 后 再 试图 通过 去 除 一 些 个 体 学 习 器 来 获得 较 小 的 集成 , 称 
为 集成 修剪 (ensemble pruning). 这 有 助 于 减 小 模型 的 存储 开销 和 预测 时 间 开 
销 . 早期 研究 主要 针对 序列 化 集成 进行 , 减 小 集成 规模 后 党 导致 泛 化 性 能 下 降 
[Rokach, 2010a]; [Zhou et al., 2002] 揭示 出 对 并 行 化 集成 进行 修剪 能 在 减 小 规 
模 的 同时 提升 泛 化 性 能 , 并 催生 了 基于 优化 的 集成 修剪 技术 . 这 方面 的 内 容 可 
参阅 [Zhou, 2012] 第 6 章 . 

关于 聚 类 、 半 监督 学 习 、 代 价 敏感 学 习 等 任务 中 集成 学 习 的 内 容 , 可 参阅 
[Zhou, 2012] 第 7~8 章 . 事实 上 , 集成 学 习 已 被 广泛 用 于 几乎 所 有 的 学 习 任务 . 
著名 数据 挖掘 竞赛 KDDCup 历年 的 冠军 几乎 都 使 用 了 集成 学 习 . 

由 于 集成 包含 多 个 学 习 器 , 即便 个 体 学 习 咒 有 较 好 的 可 解释 性 , 集成 仍 是 
黑箱 模型 . 已 有 一 些 工 作 试图 改善 集成 的 可 解释 性 , 例如 将 集成 转化 为 单 模 
型 、 从 集成 中 抽取 符号 规则 等 , 这 方面 的 研究 衍生 出 了 能 产生 性 能 超越 集成 
的 单 学 习 器 的 “二 次 学 习 ”(twice-learning) 技 术 , 例如 NeC4.5 算法 [Zhou and 
Jiang, 2004]. 可 视 化 技术 也 对 改善 可 解释 性 有 一 定 帮 助 . 可 参阅 [Zhou, 2012] 
第 8 章 . 
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8.1 。 假设 抛 硬币 正面 朝 上 的 概率 为 p, 反面 朝 上 的 概率 为 1 — p & H(n) 
”代表 抛 n 次 硬币 所 得 正面 朝 上 的 次 数 , 则 最 多 次 正面 朝 上 的 概率 为 


Mawes (jroo (8.43) 
=U 
对 6 > 0, k = (p — ô)n, 有 Hoeffding 不 等 式 
P(H (n) <(p—6)n) <er. (8.44) 


试 推 导出 式 (8 3). 


8.2 ”对 于 0/1 损失 函数 来 说 ， 指数 损失 函数 并 非 仅 有 的 一 PSR. 考 
«FBR (8.5), 试 证 明 : 任意 损失 函数 C(—f(x)H(ax)), ENF Hx) 在 区 
间 [—00, 6] (6 > 0) 上 单调 递减 , W e 是 0/1 损失 函 数 的 一 臻 替代 函数 . 
8.3 ”从 网 上 下 载 或 自己 编程 实现 AdaBoost, 以 不 剪 枝 决 策 树 为 基 学 习 器 ， 
GRR R00 pS 在 西瓜 数据 集 3.00 上 训练 一 个 AdaBoost 集成 , 并 与 图 8.4 进行 比较 
| 7 | 8.4 CradientBoosting [Friedman, 2001] 是 一 种 常用 的 Boosting 算法 , 试 

析 其 与 AdaBoost 的 异同 . | 


8.5 ” 试 编程 实现 Bagging, 以 决策 树桩 为 基 学 习 器 ， 在 西瓜 数据 集 3.0c 上 
| 训练 一 个 Bagging 集成 , 并 与 图 8.6 进行 比较 . 


8.6 iT Bagging 通常 和 为 何 难 以 提升 相 素 由 叶 斯 分 类 器 的 性 能 
8.7 ” 试 析 随机 森林 为 何 比 决策 树 Bagging 集成 的 训练 速度 更 快 . 


“8.8 ”MultiBoosting 算法 [Webb, 2000] 将 AdaBoost 作为 Bagging 的 基 学 
习 器 , Iterative Bagging 算法 [Breiman, 2001b] 则 是 将 Bagging 作为 
AdaBoost HÆF JA. 试 比较 二 者 的 优 缺 点 . 


8.9* ” 试 设计 一 种 可 视 的 多 样 性 度量 , 对 习题 8.3 和 习题 8.5 中 得 到 的 集成 
BEATER, 并 与 -误差 图 比较 . 
8.10* ” 试 设计 一 种 能 提升 近邻 分 类 器 性 能 的 集成 学 习 算 法 . 
ww ai bbt. com oooooon | 
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小 故事 : B A ar Ak FR A Fg 
李 奥 e 4i m Z (Leo Breiman, 1928-2005) 是 二 十 世纪 
伟大 的 统计 学 家 . 他 在 二 十 世纪 末 公 开 宣 称 , 统计 学 界 把 


、 解 释 和 处 理 数据 的 学 问 . 他 自称 与 机 器 学 习 走 得 更 近 ， 
a 一 行 是 在 处 理 有 挑战 的 数据 问题 . 事实 上 , He 
一 位 卓越 的 机 器 学 习 学 家 , 他 不 仅 是 CART 决策 树 的 作者 , 还 对 集成 学 习 有 三 
大 贡献 : Bagging、 随 机 森林 以 及 关于 Boosting 的 理论 探讨 . 有 趣 的 是 , 这 些 都 
是 在 他 1993 年 从 加 州 大 学 伯克利 分 校 统计 系 退 休 后 完成 的 . 

布 瑞 曼 早年 在 加 州 理 工学 院 获 物理 学 士 学 位 , 然后 打算 到 哥伦比亚 大 学 念 
哲学 , 但 哲学 系 主 任 告 诉 他 , 自己 最 优秀 的 两 个 博士 生 没 找到 工作 , TEAME 
改 学 数学 , 先后 在 哥伦比亚 大 学 和 加 州 大 学 伯克利 分 校 获得 数学 硕士 、 博 士 学 
位 . 他 先是 研究 概率 论 , 但 在 加 州 大 学 洛杉矶 分 校 (UCLA) 做 了 7 年 教授 后 他 大 
倦 了 概率 论 , 于 是 主动 辞职 . 为 了 向 概率 论 告别 , 辞职 后 他 把 自己 关 在 家 里 半年 
写 了 本 关于 概率 论 的 书 , 然后 他 到 工业 界 做 了 13 年 咨询 , 再 回 到 加 州 大 学 伯 克 
利 分 校 统 计 系 做 教授 . 布 瑞 曼 的 经 历 极 为 丰富 , 他 曾 在 UCLA 学 术 假期 间 主 动 





O 到 联合 国教 科 文 组 织 工作 , 被 安排 到 非洲 利比里亚 统计 失学 儿童 数 . 他 是 一 位 
“ 业 祭 雕塑 家 ,甚至 还 与 人 合伙 在 墨西哥 开 过 制 冰 厂 . 他 自 认为 一 生 最 重要 的 研 
” 究 成 果 一 随机 森林 , 是 70 多 岁 时 做 出 来 的 ， 
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常见 的 无 监督 学 习 任 


务 还 有 密度 估计 (densi- 
ty estimation), F #2 wl 
(anomaly detection) 等 . 


对 聚 类 算法 而 言 , 样本 
BAR SHR” . 


聚 类 任务 中 也 可 使 用 有 
标记 训练 样本 , 如 9.4.2 与 
.13.6 节 , 但 样本 的 类 标记 
HRA EMR PAR. 


9.1 聚 类 任务 


在 “无 监督 学 习 ”(unsupervised learning) 中 , 训练 样本 的 标记 信息 是 未 
知 的 , 目标 是 通过 对 无 标记 训练 样本 的 学 习 来 揭示 数据 的 内 在 性 质 及 规律 , 为 
进一步 的 数据 分 析 提供 基础 . 此 类 学 习 任务 中 研究 最 多 、 应 用 最 广 的 是 “ 娶 
类 ” (clustering). | | 

聚 类 试图 将 数据 集中 的 样本 划分 为 若干 个 通常 是 不 相交 的 子 集 , 每 个 子 集 
BRAS “GR” (cluster). 通过 这 样 的 划分 , 每 个 簇 可 能 对 应 于 一 些 潜在 的 概 
念 (类 别 ), 如 “ 浅 色 瓜 ”“ 深 色 瓜 ”, “有 籽 瓜 ”“ 无 籽 瓜 ”, 甚至 “本 地 瓜 ” 
“外 地 瓜 ”等 ; 需 说 明 的 是 , 这 些 概念 对 聚 类 算法 而 言 事先 是 未 知 的 , 聚 类 过 程 
MBE A DERRAT, 簇 所 对 应 的 概念 语义 需 由 使 用 者 来 把 握 和 命名 . 

形式 化 地 说 , 假定 样本 集 D = {zi1, zw2,...,zm} 包含 m 个 无 标记 样本 ， 
每 个 样本 zi = (zil; Tij.. limn) 是 一 个 n EREE, 则 康 类 算法 将 样本 
集 D 划分 为 k 个 不 相交 的 簇 {C1 | 1 = 1,2;.…,k}, P Cr rali = 2 
ED = ULC. HA, 我 们 用 A; € {1,2,.….,k} 表示 样本 zj 的 “ 簇 标 


W” (cluster label), BI zj € Cy. 于 是 , 窜 类 的 结果 可 用 包含 m 个 元 素 的 簇 标 


记 向 量 入 = (A1; 和 2;.…; 和 Am) RZ. | 

案 类 既 能 作为 一 个 单独 过 程 , 用 于 找寻 数据 内 在 的 分 布 结构 , 也 可 作为 分 
类 等 其 他 学 习 任务 的 前 驱 过 程 . 例如 , 在 一 些 商 业 应 用 中 需 对 新 用 户 的 类 型 进 
行 判别 , 但 定义 “用 户 类 型 ”对 商家 来 说 却 可 能 不 太 容 易 , 此 时 往往 可 先 对 用 
户 数据 进行 聚 类 , 根据 聚 类 结果 将 每 个 艇 定义 为 一 个 类 , 然后 再 基于 这 些 类 训 
练 分 类 模型 , 用 于 判别 新 用 户 的 类 型 . 

基于 不 同 的 学 习 策略 , 人 们 设计 出 多 种 类 型 的 聚 类 算法 . 本 章 后 半 部 分 将 
对 不 同类 型 的 代表 性 算法 进行 介绍 , 但 在 此 之 前 , 我 们 先 讨论 聚 类 算法 涉及 的 
两 个 基本 问题 一 性 能 度量 和 距离 计算 . 


性 能 度量 亦 称 聚 类 “有 效 性 指标 ”(validqity index). 与 监督 学 习 中 的 
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”监督 学 习 中 的 性 能 度量 
参见 2.3 节 . 


例如 将 领域 专家 给 出 的 
划分 结果 作为 参考 模型 . 


ik As. 


性 能 度量 作用 相似 , 对 案 类 结果 , 我 们 需 通过 某 种 性 能 度量 来 评估 其 好 坏 ; 为 一 
方面 ， 若 明确 了 最 终 将 要 使 用 的 性 能 度量 , 则 可 直接 将 其 作为 聚 类 过 程 的 优化 
目标 , 从 而 更 好 地 得 到 符合 要 求 的 聚 类 结果 . 

聚 类 是 将 样本 集 D 划分 为 若干 互 不 相交 的 子 集 , MERE. WA, 什么 
样 的 聚 类 结 打 比较 好 呢 ? 直观 上 看 , 我 们 希望 “ 物 以 类 聚 ”, 即 同一 篮 的 样本 
尽 可 能 彼此 相似 , 不 同 复 的 样本 尽 可 能 不 同 . 换言之 , 案 类 结果 的 “ 簇 内 相似 
度 ”(intra-cluster similarity) iH “JAE” (inter-cluster similarity) 低 . 

聚 类 性 能 度量 大 致 有 两 类 一 类 是 将 聚 类 结果 与 某 个 “参考 模 
型 (reference model) 进 行 比较 , 称 为 “外 部 指标 ”(external index); 为 一 
类 是 直接 考察 聚 类 结果 而 不 利用 任何 参考 模型 , 称 为 “内 部 指标 ”(internal 
index). | | | a i 

对 数据 集 D = {21,02,...,0m}, 假定 通过 素 类 给 出 的 艇 划分 为 C = {G1， 
C2,... ,On}, 参考 模型 给 出 的 艇 划分 为 C* = {Cx*, 0#,...,CO*}. 相应 地 , 令 入 与 
入 * 分 别 表示 与 C 和 C* 对 应 的 簇 标记 向 量 . 我 们 将 样本 两 两 配对 考虑 , 定义 


a=|SS|, SS = {(xi, 25) | Ai = N,N = Ni < J)$; (9.1) 


b=|SD|, SD={(ai,a;)|M=AMAMI<D (93) 
c=|DS|, DS = {(ai,%;) | A FARA = A34 < )}h (9.3) 
d=|DD|, DD = {(#i,2j)|MAAMANAI<AIE (04) 


其 中 集合 85 包含 了 在 C 中 隶属 于 相同 簇 且 在 C* PERE TA 


本 对 , 集合 SD 包含 了 在 C PRIBT AR BAZ C* 中 隶属 于 不 同 簇 的 样本 
ee 由 于 每 个 样本 对 (xw) (i < j) 仅 能 出 现在 一 个 集合 中 , 因此 有 
at+b+c+d=m(m-—1)/2 成立. 


基于 式 (9.1)~(9.4) 可 导出 下 面 这 些 常 用 的 聚 类 性 能 度量 外 部 指标 : 
e Jaccard 系数 (Jaccard Coefficient, 简称 JC) 


_ a 
~ atbt+e- 
e FM 指数 (Fowlkes and Mallows Index, 简称 FMI) 


| a a 
FMI = , | — - 一- 一， 9. 
a+b a+c (9.6) 
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e Rand 指数 (Rand Index, 简称 RI) 





_ 2(a+d) 

owe (9.7) 
”显然 , 上述 性 能 度量 的 结果 值 均 在 [0, 1] 区 间 , 值 越 大 越 好 . 
考虑 聚 类 结果 的 艇 划分 C = {O01; C2,..., Cx}, 定义 
2 

avg(C) = Icc- Dee dist(a,;, x;) ; (9.8) 
diam(C) = Max} <j<j<|C| dist(2i; x;) i | (9.9) 
OA Cj) = MINg EC; æj EC; dist(x;, T) f (9.10) 
deen (Ci, Cj) = dist (pi, Hj) ， (9.11) 


cht ARI 其 中 ,dist(,) 用 于 计算 两 个 样本 之 间 的 距离 ; ps RBC 的 中 心 点 y = 
ral Dacice Ti 显然, ave(C) HATIR C 内 样本 间 的 平均 距离 , diam(C) 对 
ATIR C 内 样本 间 的 最 远 距离 ， dmin(Ci, Cy) HAETI C; SHR Cj 最 近 样 本 间 
的 距离 , dcen(Ci, Ci) SIM FH Ci SHC) 中 心 点 间 的 距离 . 
基于 式 (9.8)~(9.11) 可 导出 下 面 这 些 常 用 的 聚 类 性 能 度量 内 部 指标 : 
e DB 指数 (Davies-Bouldin Index, 简称 DBI) 
(Ree avg(C;) + we 
DBI = 一 一 一 一 一 一 一 一 | . 9.12 
k i=l Ji ( deen (Mi, Hj) ( 
e Dunn 指数 (Dunn Index, 简称 DI) 


DI = min {min (— saat) } | (9.13) 


1l<i<k | ji maxl<i<k diam(C;) 


显然 , DBI 的 值 越 小 越 好 , 而 DI 则 相反 , 值 越 大 越 好 . 


9.3 距离 计算 
对 函数 dist(-,-), WET “FEB EH” (distance measure), 则 需 满足 一 


些 基 本 性 质 : 
非 负 性 : dist(zi, xj) > 0 ; (9.14) 
; NI ZA M p= | 1 
ea bt. el nee ih [0 1 TERS Se= a) 
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直 递 性 常 被 直接 称 为 
“三 角 不 等 式 ” 


式 (9.18) 即 为 mi — æj 的 


Lp 范 数 lmi -zjllz、 


pr> co 时 则 得 到 切 比 雪 
KIEK. 


亦 称 “ 街 区 距离 ”(city 
block distance). 


连续 属性 亦 称 “数值 属 
性 ” (numerical attribute), 
“离散 属性 ” 亦 称 “ 列 名 
属性 ”(nominal attribute). 


样本 类 别 已 知 时 上 通常 
REA RAK. 


对 称 性 : dist(zi, 2;) = dist(x,;, Zi) ; 
直 递 性 : dist(x;,2;) < dist(zi £y) + dist(a,, £4) . 


(9.16) 
(9.17) 


给 定 样本 1 ; Lin) 与 Tj = 
“闵可夫 斯 基 距 离 ”(Minkowski distance) 


tin), 最 常用 的 是 


(£ii; Tj2; ss 


dist (2i 3) = = (> Cp ) . - (9.18) 
u=1 
对 p > 1, 式 (9.18) 显 然 满足 式 (9.14)~(9.17) 的 距离 度量 基本 性 质 . 
= 2 时 , 闵可夫 斯 基 距 离 即 欧 氏 距离 (Euclidean distance). 

distea(%i, xj) = ||æ; — zj||2 = , bs Diu — Liu!” . (9.19) 

u=1 

p=1 kf, 闵可夫 斯 基 距 离 即 曼哈顿 距离 (Manhattan distance) 

distman (£i, 23) = = ars 一 zjll = = > Eiu — Tul - (9.20) 

u=1 


RN HERI a A E5 $ J HE” (continuous attribute) 和 “离散 属 


VE” (categorical attribute), 前 者 在 定义 域 上 有 无 穷 多 个 可 和 能 的 取 值 , 后 者 在 定 
义 域 上 是 有 限 个 取 值 . 然而 , 在 讨论 距离 计算 时 , 属性 上 是 否定 义 了 “ 序 ” 关 


系 更 为 重要 . 例如 定义 域 为 {1,2, 3} 的 离散 属性 与 连续 属性 的 性 质 更 接近 一 些 ， 
能 直接 在 属性 值 上 计算 距离 : “1” 与 “2” 比 较 接近 、 与 “3” 比 较 远 , 这 样 的 
属性 称 为 “有 序 属性 ” (ordinal attribute); 而 定义 域 为 {飞机 , 火车, 轮船 } 这 样 
的 离散 属性 则 不 能 直接 在 属 性 值 上 计算 距离 , 称 为 “无 序 属 性 ” (non-ordinal 
attribute). 显然 , 闵可夫 斯 基 距 离 可 用 于 有 序 属性 . 


对 无 序 属性 可 采用 VDM (Value Difference Metric) [Stanfill and Waltz, 
1986]. © mua 表示 在 属性 上 取 值 为 a 的 样本 数 , muai BRER i MEA 
中 在 属性 w 上 取 值 为 a 的 样本 数 , k APERIRA, 则 属 性 u 上 两 个 离散 值 a 与 b 
之 间 的 VDM 距离 为 


M b) = | 
VD p (a, ) 一 | Mua 
ww ai bbt. com oonó nn 


P 
Muai ™Mu,b,i 


(9.21) 








Mu, b 
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这 个 例子 中 ,从 数学 上 
A, 令 da =3 即 可 满足 直 
递 性 ; 但 从 语义 上 看 , da 应 
远大 于 di 与 d2. 
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于 是 , 将 闵可夫 斯 基 距 离 和 VDM 结合 即 可 处 理 混 合 属性 . 假定 有 n 个 有 
序 属性 、n 一 me 个 无 序 属性 , 不 失 一 般 性 , 令 有 序 属 性 排列 在 无 序 属 性 之 前 , 则 


1 


MinkovDM, (aj, xj) = (3 一 Xjul + 5 VDM T) ' 
4 一 工 U 二 Ne 十 1 
(9.22) 


当 样 本 空间 中 不 同属 性 的 重要 性 不 同时 , 可 使 用 “加 权 距 离 ”(weighted 
distance). 以 加 权 闵 可 夫 斯 基 距 离 为 例 : 


if 
人 (wi [za — al? +...+ wn Ein — ta) | (9.23) 





其 中 权重 wi > 0 (i = 1,2,...,n) 表征 不 同属 性 的 重要 性 , 通常 > 1 wy = 1. 


项 注意 的 是 , 通常 我 们 是 基于 某 种 形式 的 距离 来 定义 “相似 度 度 
=” (similarity measure), 距离 越 大 , AUB). Ai, 用 于 相似 度 度 量 的 
距离 未 必 一 定 要 满足 距离 度量 的 所 有 基本 性 质 , 尤其 是 直 递 性 (9.17). 例如 在 
某 些 任务 中 我 们 可 能 希望 有 这 样 的 相似 度 度量 : “人 ”“ 马 ”分 别 与 “人 马 ” 
相似 , 但 “人 ”与 “ 马 ” 很 不 相似 ; 要 达到 这 个 目的 , 可 以 令 “ 人 ”“ 马 ”与 
“人 号 ”之 间 的 距离 都 比较 小 , 但 “人 ”与 “ 马 ” 之 间 的 距离 很 大 , 如 图 9.1 所 
7R, 此 时 该 距离 不 再 满足 直 递 性 ; 这 样 的 距离 称 为 “ 非 度 量 距 离 ”(non-metric 
distance). 此 外 , 本 节 介 绍 的 距离 计算 式 都 是 事先 定义 好 的 , 但 在 不 少 现实 任 
务 中 , 有 必要 基于 数据 样本 来 确定 合适 的 距离 计算 式 , 这 可 通过 “距离 度量 学 
习 ”(distance metric learning) 来 实现 . 


Yc Se 


E AS 2 
a = y 


不 相似 ip 


9.1 非 度量 距离 的 一 个 例子 
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“原型 ”是 指 样本 空间 
中 具有 代表 性 的 点. 


p.89 的 西瓜 数据 集 3.0a 
是 西瓜 数据 集 4.0 的 子 集 . 


样本 9~21 的 类 别 是 
“好 瓜 = 否 ”， 其 他 样本 
的 类 别 是 “好 瓜 = 是 ”. 
由 于 本 节 使 用 无 标记 样本 ， 
因此 类 别 标 记 信 息 未 在 表 
中 给 出 . 


9.4 RAR 


原型 聚 类 亦 称 “基于 原型 的 聚 类 ， (prototype-based clustering), 此 类 算法 


假设 聚 类 结构 能 通过 一 组 原型 刻画 , 在 现实 聚 类 任务 中 极为 常用 . 通常 情形 下 ， 


算法 先 对 原型 进行 初始 化 , 然后 对 原型 进行 迭代 更 新 求解 . 采用 不 同 的 原型 表 
示 、 不 同 的 求解 方式 , 将 产生 不 同 的 算法 . 下 面 介 绍 几 种 著名 的 原型 到 类 算法 
9.4.1 k 均值 算法 


给 定 样本 集 D 7 {x1,@0,...,&m}, “k 均值 ” (k-means) 算 法 针对 聚 类 所 
得 簇 划 分 C = {C1, C2,.…, Ch} 最 小 化 平方 误差 


k 
E= >》 |e- wills , (9.24) 
i=1 EC; | 

其 中 应 = dy Daco, © ET C 的 均值 向 量 , 直观 来 看 , 式 (9.24) 在 一 定 程度 上 
刻画 了 簇 内 样本 围绕 簇 均 值 回 量 的 紧密 程度 , E 值 越 小 则 簇 内 样本 相似 度 越 高 . 
最 小 化 式 (9.24) 并 不 容易 , 找到 它 的 最 优 解 需 考察 样本 集 D 所 有 可 能 的 簇 
划分 , 这 是 一 个 NP 难 问题 [Aloise et al., 2009]. 因此 ,均值 算法 采用 了 贪心 策 
略 , 通过 迭代 优化 来 近似 求解 式 (9.24). 算 法 流程 如 图 9.2 所 示 , 其 中 第 1 行 对 
均值 向 量 进行 初始 化 , 在 第 4-8 行 与 第 9-16 行 依次 对 当前 簇 划分 及 均值 向 量 迭 
代 更 新 , 若 迭 代 更 新 后 聚 类 结果 保持 不 变 , 则 在 第 18 行将 当前 艇 划分 结果 返回 . 
下 面 以 表 9.1 的 西瓜 数据 集 4.0 为 例 来 演示 均值 算法 的 学 习 过 程 . 为 方 


EROE, 我 们 将 编写 为 i 的 样本 称 为 zi 这 是 一 个 包含 Ro 与 “ 含 糖 率 ” 
两 个 属 性 值 的 一 维 H. 


表 9.1 西瓜 数据 集 4.0 






Oontouwh wwe 


一 
OO 
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9.4 ”原型 聚 类 


为 避免 运行 时 间 过 长 ， 
通常 设置 一 个 最 大 运行 轮 
AA HR | A ESL AG, 
若 达 到 最 大 轮 数 或 调整 幅 
ETRE, 则 停止 运行 . 
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输入 : HAS D = 2 
过 程 : | | 
1: 从 刀 中 随机 选择 大 个 样本 作为 初始 均值 癌 量 {jv1, U2... Hk} 
2: repeat - 
3 & CO, = 2 (1<i¢k) 
4: for7=1,2,...,mdo . 
5: 计算 样本 zj 与 各 均值 向 量 w; (1 <i<k) 的 距离 : dji = |æ; 一 mill; 
6 根据 距离 最 近 的 均值 向 量 确定 zj 的 艇 标记 : Ay = arg mineg...) dji 
7: ”将 样本 zj 划 入 相应 的 簇 : Cy, = Ca, Ulery}; 

8 end for 

9: fori=1,2,...,k do 
10: ”计算 新 均值 向 量 : pl = 2 Laco, 2: 


11: if ui Æ u; then 

12: 将 当前 均值 癌 量 li 更 新 为 H; 
13: else 

14: 保持 当前 均值 问 量 不 变 

15: — end if 

16: end for 


17: until 当前 均值 回 量 均 未 更 新 
输出 : FERIS C= {C1, Co, ants Ck} 


9.2 天 均值 算法 
BERKEM k= 3, 算法 开始 时 随机 选取 三 个 样本 £e, £12, za27 作为 初始 
HEE, 即 
[41 = (0.403; 0.237), pro = (0.343; 0.099), u3 = (0.532; 0.472) . 
考察 样本 zl = (0.697; 0.460), 它 与 当前 均值 向 量 jw, oe, Ha 的 距离 分 别 为 
0.369, 0.506，0.166, 因此 zi KRIAS C3 中 . 类 似 的 , 对 数据 集中 的 所 有 样本 
考察 一 裔 后 , 可 得 当前 艇 划分 为 
C1 {x5, L6, T7, T8, T9, 010,213, 014,015, L17, T18, T19, T20, T23}; 
Co = {£11, £12, £16}; 


C3 = {£1, £2, £3, L4, B21, X22, E24, L25, 26, L27, Bre, L29, L30) 
于 是 , 可 从 Ch On Os 分 别 求 出 新 的 均值 向 量 
ye), = (0.473; 0.214), ph = (0.394; 0.066), u% = (0.623; 0.388) . 
更 新 当前 均值 向 量 后 , 不 断 重复 上 述 过 程 , 如 图 9.3 所 示 , MEN 


果 与 第 四 轮 迭 代 相 同 , 于 是 算法 停止 , 得 到 最 终 的 簇 划 分 . 
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i 0.2 0.3 0.4 0.6 0.7 0.8 0.9 4 0.2 0.3 0.4 


RA 密度 0.6 0.7 0.8 0.9 
(a) 第 一 轮 和 迭代 后 (b) 第 二 轮 和 迭代 后 





0.6 0.7 0.8 0.9 


0.6 0.7 0.8 0.9 61 0.2 0.3 0.4 


ba 0.2 0.3 0.4 0.5 0.5 
密度 密度 
(c) $ ERRE (d) 第 四 轮 选 代 后 


9.3 西瓜 数据 集 4.0 上 上 均值 算法 (k = 3) 在 各 轮 迭 代 后 的 结果 . 样本 点 与 均值 向 
量 分 别 用 “e” 与 “4” 表示 , ERRET RAND. 


9.4.2 学 习 回 量 量化 
与 上 均值 算法 类 似 , “SS i)” (Learning Vector Quantization, faj 
WR LVQ) 也 是 试图 找到 一 组 原型 问 量 来 刻画 案 类 结构 , 但 与 一 般 聚 类 算法 不 同 
wae tet wk ADE, LVQ 假设 数据 样本 带 有 类 别 标记 , 学 习 过 程 利用 样本 的 这 些 监督 信息 来 
子 类 对 应 一 个 聚 类 禾 . MIRR. 
给 定 样本 集 D= {(a@1, y1); (£2, Y2), saeg (Erm Ym) }; 每 个 样本 Lj 征 由 n T 
BERRE IA) BE (zj1; 242; -3 Lin), Yj E V 是 样本 x; 的 类 别 标记 . LVQ 的 
目标 是 学 得 一 组 n 维 原型 向 量 {pl, po,..., pq}, 每 个 原型 向 量 代表 一 个 聚 类 艇 ， 
TERMIC t; € V. 
LVQ 算法 摘 述 如 网 9.4 Pras. 算法 第 1 行 先 对 原型 癌 量 进行 初始 化 , 例如 


对 第 g 个 簇 可 从 类 别 标 记 为 刀 的 样本 中 随机 选取 一 个 作为 原型 向 量 . 算法 第 
ww ai bbt. com 000000 





输入 : E D = {(Z1， yı), (æ2,Y2),. (Ems Ym) 3 
原型 问 量 个 数 9， 各 原型 向 量 预 设 的 类 别 标记 {ti, t2,...,ta}; 
学 习 率 7 € (0,1). 
过程 : 
1: 初始 化 一 组 原型 问 量 人 ., Dat 
2: repeat 
从 样本 集 D 随机 选取 样本 (zj yz); 
计算 样本 2 与 Di a <i A T tji = = læ; ~ Pallas 


TEET] 


2; 与 pi 的 类 别 相同 ， 


4 

5: 

6: if yj = te then 

7: p' = py +n: (£j 一 Dir) 
8 


7 : else 
a; 与 pi 的 类 别 不 同 . 9: D = pix — N: (£j — Pi*) 
10: endif 
11: ”将 原型 向 量 pi* 更 新 为 p/ 
如 达到 最 大 迭代 轮 数 . 12: until 满足 停止 条 件 


输出 : 原型 问 量 {pi, po,.--, Pa} 
图 9.4 学 习 向 量 量化 算法 


pee eg cou 2wv12 行 对 原型 向 量 进 行 选 代 优化 . 在 每 一 轮 迭代 中 , 算法 随机 选取 一 个 有 标记 
是 基于 无 标记 样本 的 聚 类 ”训练 样本 , 找 出 与 其 距离 最 近 的 原型 向 量 , 并 根据 两 者 的 类 别 标记 是 否 一 致 来 
E P VATA SON 对 原型 向 量 进行 相应 的 更 新 . 在 第 12 行 中 , 若 算法 的 停止 条 件 已 满足 (例如 已 
于 竞争 学 习 与 SOM, 参见 ”达到 最 大 迭代 轮 数 , 或 原型 向 量 更 新 很 小 甚至 不 再 更 新 ), 则 将 当前 原型 向 量 作 
5.5.2 和 5.5.3 F. 

为 最 终结 果 返 回 . 

WAR, LVQ 的 关键 是 第 6-10 行 , 即 如 何 更 新 原型 向 量 . 直观 上 看 , 对 样本 
zj, 车 最 近 的 原型 向 量 pe 与 aj 的 类 别 标记 相同 , WE pe 向 zy 的 方向 靠拢 
如 第 7 行 所 示 ， 此 时 新 原 型 向 量 为 


p = pir +n: (zj — Dir) , | (9.25) 
p 与 Lj 之 间 的 距离 为 
Ip! — æ;ll2 = lpr +n- (wy — pi) — jll2 
= (1—1)- |lpe — zjll2 - (9.26) 
令 学 习 率 7 E (0,1), 则 原型 向 量 pe 在 更 新 为 p 之 后 将 更 接近 rj. 
类 似 的 , 车 pi* 与 zj 的 类 别 标记 不 同 , 则 更 新 后 的 原型 向 量 与 zj 之 间 的 


距离 将 增 大 为 (1 十) : ||pi: — zll 从 而 更 远离 zj. 


在 学 得 一 组 原型 问 量 {pi1, a, . - pe} Ja, 即 可 实现 对 样本 空间 AER 
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若 将 Ri 中 样本 全 用 原 


型 向 量 pA, MTS 


现 数据 的 “有 损 压 缩 ” 
(lossy compression), 3X 4% 
为 “向 量 量化 ” (vector 
quantization); LVQ 由 此 而 
得 名 . 


即 希望 为 “好 瓜 = 是 
找到 3A, “好 瓜 一 否 ” 
找到 2 AK. 


WA s~ N(p,%). 


DS: 对 称 正定 和 矩阵; 
=|: E 的 行列 式 ; 
D-i, D ae HEE. 


分 . 对 任意 样本 z, 它 将 被 划 入 与 其 距离 最 近 的 原型 向 量 所 代表 的 簇 中; 换 言 
之 , 每 个 原型 向 量 ps; 定义 了 与 之 相关 的 一 个 区 域 R, 该 区 域 中 每 个 样本 与 p: 
的 距离 不 大 于 它 与 其 他 原型 向 量 py (i! A 4) 的 距离, 即 


= {æ € X | ||æ — pile < lz — pillo, ¢ # i} . (9.27) 


由 此 形成 了 对 样本 空间 X KRR {Ri Rz,…, Ra), BRENA 
“Voronoi 训 分 ”(Voronoi tessellation). 

下 面 我 们 以 表 9.1 的 西瓜 数据 集 4.0 为 例 来 演示 LVQ 的 学 习 过 程 . 4 9-21 
号 样本 的 类 别 标记 为 co, 其 他 样本 的 类 别 标记 为 ci. 假定 gq = 5, 即 学 习 目 


C1, C2, C2, C1, C1- 

算法 开始 时 , 根据 样本 的 类 别 标记 和 簇 的 预 设 类 别 标记 对 原型 向 量 进行 随 
机 初始 化 , 假定 初始 化 为 样本 z5, £12, Lig, T23, Log. TESS FOIA, 假定 随 
机 选取 的 样本 为 V4, 该 样本 与 当前 原型 向 量 Pi, P2, P3, P4, P5 的 距离 分 别 为 
0.283, 0.506, 0.434, 0.260, 0.032. 由 于 ps 与 zl 距离 最 近 且 两 者 具有 相同 的 类 
别 标记 co, 假定 学 习 率 n = 0.1, M LVQ 更 新 ps 得 到 新 原型 向 量 

p' = ps+n- (£1 — ps) 
= (0.725; 0.445) + 0.1 ` ((0.697; 0.460) 一 (0.725; 0.445)) 
= (0.722: 0. 442). | 


将 ps 更 新 为 p T, 不 WE 不 同 轮 数 之 后 RAG RO 9.5 所 示 . 
9.4.3 高 斯 混合 聚 类 


与 均值、LVQ 用 原型 向 量 来 刻画 聚 类 结构 不 同 , 高 斯 混合 (Mixture-of- 
Gaussian) 聚 关 有 用 概率 模型 来 表达 聚 关 原型 . 


我 们 先 简 单 回顾 一 下 (多 元 ) 高 斯 分 布 的 定义 . Xf n 维 样本 空间 X 中 的 隐现 
向 量 x, 若 x 服从 高 斯 分 布 , 其 概率 密度 函数 为 


1 一 TE- 1(x— 
.p(T eo 3 (eu mi 9.28 
= (27)2 a en) 


FO p zen 维 均值 向 量 ， 区 是 nxn 的 协 方差 矩阵 由 式 (9.28) 可 看 出 , 高 斯 分 


” 布 完 全 由 均值 向 量 yy 和 协 方差 矩阵 允 这 两 个 参数 确定 . 为 了 明确 显示 高 斯 分 
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6 
0.1 0.2 0.3 0.4 0.6 0.7 0.8 0.9 ba 0.2 0.3 0.4 


密度 密度 0.6 0.7 0.8 0.9 
(a) 50 轮 选 代 后 (b) 100 #2 AVE 





0.6 0.7 0.8 0.9 ba 0.2 0.3 0.4 


0.1 0.2 0.3 i 0.4 


(c) 200 HRE (d) 400 4AE 


图 9.5 西瓜 数据 集 4.0 LVQ 算法 (g = 5) 在 不 同 轮 数 迭代 后 的 聚 类 结果 . c1, co KH 
本 点 与 原型 向 量 分 别 用 “@”, “0” 与 “二” 表示 , 红色 虚线 显示 出 聚 类 形成 的 Voronoi HA. 


布 与 相应 参数 的 依赖 关系 , 将 概率 密度 函数 记 为 p(x | u, D). 
我 们 可 定义 高 斯 混合 分 布 


pM(-) 也 是 概率 密度 函 
数 , f pm(æ)dæ = 1. pmM(x) = S ax DN [lig Pas). (9.29) 
i=l 


该 分 布 共 由 天 个 混合 成 分 组 成 , 每 个 混合 成 分 对 应 一 个 高 斯 分 布 . 其 中 ji 与 
D, 是 第 ;个 高 斯 混合 成 分 的 参数 , 而 % > 0 为 相应 的 “混合 系数 ”(mixture 
coefficient), ee a= l; 

假设 样本 的 生成 过 程 由 高 斯 混合 分 布 给 出 : 首先 , 根据 ol, 02,..., 0% 定义 
的 先 验 分 布 选择 融 斯 混合 成 分 , 其 中 oi 为 选择 第 i 个 混合 成 分 的 概率 ; 然后 , 根 
Ta EPER YE IRA RINA E PA TE BR EAT KFE, 从 而 生成 相应 的 样本 . 
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若 训练 集 = {21,22 Em} 由 上 述 过 程 生成 , 令 随机 变量 2) © {1, 
2， ,好 表示 生成 样本 zj 的 高 斯 混合 成 分 , 其 取 值 未 知 . 显然 , 2, 的 先 验 概率 
P(z; =i) MIF o; (i=1,2,...,k). 根据 贝 叶 斯 定理 , zj 的 后 验 分 布 对 应 于 


P(z; = i) - pm (xj | z; =i) 
PM(x;) 


C ety 


k 
2 a: p(z; | pi, X1) 
z 


pm(zj =1| 2) = 


SEZ, pula =i | wy) 给 出 了 样本 cy 由 第 ; 个 高 斯 混 合成 分 生成 的 后 验 要 
率 . 为 方便 叙述 , 将 其 简 记 为 0 

当 高 斯 混合 分 布 (9.29) 已 知 时 , 高 斯 混合 聚 类 将 把 样本 集 D Rah AN k NR 
C= {C1, Co, ... ,Ox}, 每 个 样本 Tj 的 簇 标记 Àj 如 下 确定 : 


Aj = argmax ji. (9.31) 
i€{1,2,...,k} / 

因此 , 从 原型 聚 类 的 角度 来 看 , 高 斯 混合 聚 类 是 采用 概率 模型 (高 斯 分 布 ) 对 原型 

进行 刻画 , 簇 划 分 则 由 原型 对 应 后 验 概率 确定 . a 


那么 , 对 于 式 (9.29), 模型 参数 (oi wi, Xi) | 1 <i < k} 如 何 求解 呢 ? 显然 ， 
。 极 大 似 然 估计 参见 72 WERKE D, 可 采用 极 大 似 然 估计 , 即 最 大 化 (对 数 ) 似 然 | 


节 


LL(D) =In ii rate) 


j=l 


m k i 
=) m (> Qi P(X; | Mis =) ) (9.32) 
j=l | 


| \i=1 
EM 算法 参见 7.6 节 ，。 WRH EM 算法 进行 迭代 优化 求解 . 下 面 我 们 做 一 个 简单 的 推导 ， 
车 参数 {(ai, mi, Xi) | 1 < i < k} 能 使 式 (9.32) 最 大 化 , 则 由 EO) = 0 有 


j=1 


Me 


ay: p(x; | Mi, Xi) 
i 


1 


OD) ee pg ee. 2 





209 


9.4 原型 聚 类 
m 
(9.34) 





即 各 混合 成 分 的 均值 可 通过 样本 加 权 平均 来 估计 , 样本 权重 是 每 个 样本 属于 访 
成 分 的 后 验 概率 . 类 似 的 , 由 D -- 0 可 得 


3 jilæ; — pi) (Tj — mi)! 
= , (9.35) 


2; = 
Gi 


对 于 混合 系数 oi, 除了 要 最 大 化 LL(D), 还 需 满足 a; > 0, Wai = 1. 考虑 


LL(D) 的 拉 格 朗 日 形式 
， k 
LL(D) + (> Qi 一 ! ， (9.36) 
l 2 一 工 
其 中 和 为 拉 格 朗 日 乘 子 . 由 式 (9.36) 对 a; 的 导数 为 0, 有 
j=! 2 a: p(x; | 1, Xi) 
两 边 同 乘 以 ai, 对 所 有 样本 求 和 可 知 A = —m, 有 
(9.38) 


m 
1 
a =—) Wes 
ms 
j=l 


即 每 个 高 斯 成 分 的 混合 系数 由 样本 属于 该 成 分 的 平均 后 验 概 率 确定 . 
由 上 述 推导 即 可 获得 高 斯 混合 模型 的 EM 算法 : 在 每 步 迭 代 中 , 先 根据 
当前 参数 来 计算 每 个 样本 属于 每 个 高 斯 成 分 的 后 验 概率 yi EF), 再 根据 
式 (9.34)、(9.35) 和 (9.38) 更 新 模型 参数 {(ai, pi, Di) | 1 <i < k} (M 步 ). 
高 斯 混合 聚 类 算法 描述 如 图 9.6 所 示 . 算法 第 1 行 对 高 斯 混合 分 布 的 模型 
参数 进行 初始 化 . 然后 , 在 第 2-12 行 基于 EM 算法 对 模型 参数 进行 迭代 更 新 . 


F EM 算法 的 售 目 条件 满足 ( 例 可 局 福 到 最 大 迁 代 轮 数 , 或 似 然 函 数 LL(D) 增 





210 


EM 算法 的 E 步 . 


EM 算法 的 M 步 . 


例如 达到 最 大 迭代 轮 数 . 


输入 : 样本 集 D= {zx1, XT2,... Ban}; 


高 斯 混合 成 分 个 数 k. 
1: 初始 化 高 斯 混合 分 布 的 模型 参数 {(ai wi, Di) |1<i< k} 
2: repeat 


3: for7=1,2,...,m do 

4 ” ”根据 式 (9.30) 计 算 x; 和 各 混合 成 分 生成 的 后 验 要 即 
Yji = PM(25 = i | æ) te 人 

5: end for | 

6: fori=1,2,...,k do 


7: ”计算 新 均值 向 量 : po) 一 Se. 


2 j=1 Yii 
8: E E a 
9: ”计算 新 混合 系数 : o = Hiti, 
10: end for 
11: ”将 模型 参数 {(@i, pi, Di) | 1 <i < k} 更 新 为 {oim D) |1 <i<k} 
12: until 满足 停止 条 件 
13: CO; =O (I <i<k) 
14: for j = 1,2,...,m do 
15: ”根据 式 (9.31) 确 定 zj MRI Aj; 
16: “将 æ; 划 入 相应 的 簇 : Cr, = Cy, UU{z;} 
17: end for 
输出 : 簇 划分 C = {C1, C2,..., Ok} 


9.6 高 斯 混合 聚 类 算法 
长 很 少 甚至 不 再 增长 ), 则 在 第 14-17 行 根据 高 斯 混合 分 布 确定 艇 划分 , 在 第 18 
行 返回 最 终结 果 . 


以 表 9.1 的 西瓜 数据 集 4 4.0 为 例 , 令 高 斯 混合 成 分 的 个 数 = 3. 算法 开始 
时 , 假定 将 高 斯 混合 分 布 的 模型 参数 初始 化 为 : ai = aa = as = 4; H = £e, 


0.1 0.0 
p2 = mo, pe = Wars Ba = Ea = Ba = ( | 


0.0 0.1 


FE — HIB, 先 计算 样本 由 各 混合 成 分 生成 的 后 验 概率 . 以 zl 为 例 ， 


由 式 (9.30) 算 出 后 验 概率 m1 = 0.219, m2 = 0.404, ms = 0.377. 所 有 样本 的 后 


验 概率 算 完 后 , 得 到 如 下 新 的 模型 参数 : 
a, = 0.361, ah = 0.323, a = 0.316 
u, = (0.491; 0.251), po = (0.571; 0.281), po = (0.534; 0.295) 
x E (om vn) ee bee ae etre. ho and 
0.004 0.016 0.004 0.017)’ : 0.005 0.016 
模型 参数 更 新 后 ， 不 断 重复 上 述 过 THE, 不 同 轮 数 之 后 的 聚 类 结果 如 图 9.7 所 示 . 


ww ai bbt. com HOOoOoOdg 





95 ”密度 聚 类 


全 称 “Density-Based S- 
patial Clustering of Appli- 
cations with Noise” . 


在 本 章 后 续 内 容 中 , 距 
离 函数 dist(-,.) 在 默认 情 
形 下 设 为 欧 氏 距离 . 
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0.4 0.6 0.7 0.8 





(a) 5 轮 和 迭代 后 (b) 10 轮 和 迭代 后 





ba 0.2 0.3 0.4 


05 0.6 0.7 0.8 0.9 人 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 
密度 密度 
(c) 20 4838 AUG (d) 50 轮 迁 代 后 


9.7 高 斯 混合 聚 类 (k = 3) 在 不 同 轮 数 送 代 后 的 聚 类 结果 . APAE 01, Ch 与 Cs 
中 的 样本 点 分 别 用 “o>，“ 国 ”与 <A> 表 示 , 各 高 斯 混合 成 分 的 均值 向 量 用 “+” 表 示 . 


9.5 HERA 


密度 聚 类 亦 称 “基于 密度 的 聚 类 ”(density-based clustering), 此 类 算法 假 
设 聚 和 结构 能 通过 样本 分 布 的 紧密 程度 确定 . 通常 情形 下 , 密度 聚 基 算 法 从 样 
本 密度 的 角度 来 考察 样本 之 间 的 可 连接 性 , 并 基于 可 连接 样本 不 断 扩展 聚 类 入 
以 获得 最 终 的 聚 类 结果 . | 

DBSCAN 是 一 种 著名 的 密度 聚 类 算法 , 它 基 于 一 组 “ 邻 域 ” (neigh- 
borhood) 参数 (e MinPts) 来 刻画 样本 分 布 的 紧密 程度 . 给 定数 据 集 
D = {a1,22,...,2m}, 定义 下 面 这 几 个 概念 : 


。e- 邻 域 : 对 zj E D, 其 e 邻 域 包含 样本 集 D 中 与 zj 的 距离 不 大 于 e WR 
AS, Bll Neli hiDi tan A sist trea ees) < E: 
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o 核心 对 象 (core object): A zj 的 e 邻 域 至 少 包含 MinPts SHA, 即 
|Ne(x£;)| > MinPts, 则 a; 是 一 个 核心 对 象 ; 


密度 直达 关系 通常 不 满 o 密度 直达 (directly density-reachable): 4 x; 位 于 x; 的 e- 邻 域 中 , A z; 是 


PARE 核心 对 象 , 则 称 wy 由 zi 密度 直达 ; 
密度 可 达 关 系 满足 直 递 e 密度 可 达 (density-reachable): 对 zi 与 xj, 若 存 在 样本 序列 p1, po,.--, Pn, 
性 , 但 不 满足 对 称 性 . 其 中 DL = Li, Dn 一 Lj H Pi+1 由 Di 密度 直达 ， 则 称 Tj H Li 密度 可 达 ; 


密度 相连 关系 满足 对 称 。 密度 相 连 (density-connected): 对 zi 与 xj, 若 存 在 a, 使 得 zi 与 zj 均 由 
= zk 密度 可 达 , 则 称 mi 与 zj 密度 相连 . 


图 9.8 给 出 了 上 述 概念 的 直观 显示 . 


“amo 


图 9.8 DBSCAN 定义 的 基本 概念 (Mim Ptls = 3): 虚线 显示 出 e- 邻 域 , zl 是 核心 对 
Ria 由 Z1 密度 直达 , za 由 zl1 密度 可 达 , za3 与 x, 密度 相连 . 


| 基于 这 些 概念 , DBSCAN % “HR” ENA: 由 密度 可 达 关系 导出 的 最 大 的 
ale 密度 相连 样本 集合 . 形式 化 地 说 , 给 定 邻 域 参数 (e, MinPts), BEC C D 是 满足 
异常 (anomaly) 样 本 . 以 下 性 质 的 非 空 样本 子 集 : 


连接 性 (connectivity): x; € C, Cj EC > xi 5a; 密度 相连 (9.39) 
最 大 性 (maximality): xi E€ C, w; Ha; 密度 可 达 > Cj EC (9.40) 


那么 , 如 何 从 数据 集 D 中 找 出 满足 以 上 性 质 的 聚 类 簇 呢 ? 实际 上 , 若 z 

为 核心 对 象 , 由 zx 密度 可 达 的 所 有 样本 组 成 的 集合 记 为 了 = {z € D | 
由 z 密度 可 达 }, 则 不 难 证 明 X 即 为 满足 连接 性 与 最 大 性 的 簇 . | 

于 是 , DBSCAN 算法 先 任 选 数据 集中 的 一 个 核心 对 象 为 PET” (seed), 

再 由 此 出 发 确定 相应 的 聚 类 簇 , 算法 描述 如 图 9.9 所 示 . 在 第 1~7 行 中 , 算法 

先 根据 给 定 的 邻 域 参 数 (€, MinPts) 找 出 所 有 核心 对 象 ; 然后 在 第 10~24 行 中 ， 

”以 任 一 核心 对 象 为 出 发 点 , 找 出 由 其 密度 可 达 的 样本 生成 聚 类 簇 , 直到 所 有 核 


WTR BT ET Ae com gn00000 - 


gr! 
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输入 : 样本 集 D = {£1, £2,..., Lm}; 
邻 域 参数 (e, MinPts). 
过 程 : 
1: 初始 化 核心 对 象 集合 : 0 = øg 
2: for j = 1,2,...,m do | 
3: ”确定 样本 zj 的 e- 邻 域 Ne(z;); 
4: if |N(z;)| > MinPts then 
5 将 样本 zj 加 入 核心 对 象 集合 :0 = QU{zx;} 
6 end if 
7: end for 
8: 初始 化 聚 类 筷 数 : k = 0 
9: 初始 化 未 访问 样本 集合 : 荆 == DD 
10: while Q 4 @ do 
11: 记录 当前 未 访问 样本 集合 : Tod = 
12: ”随机 选取 一 个 核心 对 象 0 € O, ate 化 队列 Q =< o >; 
B: PSP \ fol; 
(14: while Q 42 do 
15: 取出 队列 Q 中 的 首 个 样本 q; 


16: if |N.(q)| > MinPts then 
17: & A= NLQ (NT; 

18: 将 A 中 的 样本 加 入 队列 Q; 
19: Per \ as 

20: end if 


21: end while 

22: k=k+1, ERRRRC, = Tona \T; 
232; Q=02\C, 

24: end while 

输出 : TERIA C= {C1, Ca, setts , Ck} 


9.9 DBSCAN 算法 


以 表 9.1 的 西瓜 数据 集 4.0 为 例 , 假定 邻 域 参数 (e, MinPts) 设置 为 e = 
0.11, MinPts = 5. DBSCAN 算法 先 找 出 各 样本 的 e 邻 域 并 确定 核心 对 象 集 
E: Q = {23, 05,26, Lg, L9, L13, T14, 1g, T19, L24, T25, L28, L29}. 然后 , 从 中 
随机 选取 一 个 核心 对 象 作为 种 子 , 找 出 由 它 密度 可 达 的 所 有 样本 , 这 就 构成 了 
EDRR. 不 失 一 般 性 , 假定 核心 对 象 zs 被 选中 作为 种 子 , 则 DBSCAN 
生成 的 第 一 个 聚 类 艇 为 


Ci = {x6, £7, L8, L10, L12, Lig, L19; L20, £23 } . 


然后 DBSCAN 将 Cu 中 包含 的 核心 对 象 从 Q RER: Q= 0\0 = 
{x3, £5, £9, L13, L14, L24, L25, L28, 229}. 再 从 更 新 后 的 集合 9 中 随机 选取 一 个 
核心 对 象 作 为 种 子 来 生成 下 一 个 聚 类 复 . 上 述 过 程 不 断 重 复 , BROWS. 图 


9.10 显示 出 DBSCAN ee ren al. C1 之 后 生成 的 聚 类 簇 为 
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ba 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 8.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 
密度 密度 
(a) ERR IR Ch (b) ERRAIR Co 





0.4 0.5 0.6 ; 
密度 密度 
(c) ERR Cs (d) ERRKE Cy 


图 9.10 DBSCAN 算法 (e= 0.11, MinPts = 5 生成 聚 类 繁 的 先后 情况 . 核心 对 象 、 
非 核心 对 象 、 we E AE AK D> Fl H “e” “o” C1 Be aR oy &, ie 线 显 示 出 徐 划 分 . 


Co = Me 0s, 19; 018, Vids iby Liz C91 b 3 
C3 = {x%1, 22, £22, £26, £29} ; 


C4 = {£24, £25, £27, £28, L30} . 


06 层次 聚 类 


层次 聚 类 (hierarchical clustering) 试 图 在 不 同 层次 对 数据 集 进 行 划 分 , 从 而 
形成 树 形 的 聚 类 结构 . 数据 集 的 划分 可 采用 “ 自 底 向 上 ”的 聚合 策略 , 也 可 采 
H BWAT” KIIRE. 


AGNES 是 AGgomera。 AGNES 是 一 种 采用 自 底 向 上 聚合 策略 的 层次 聚 类 算法 ， 它 先 将 数据 集中 
RISES RSE SRA AE AIT RABE 然后 在 算法 运行 的 每 一 步 中 拷 出 距离 最 近 的 





集合 间 的 距离 计算 党 
采用 豪 斯 多 夫 距 离 (Haus- 
dorff distance), 参见 习题 
9.2. 


通常 使 用 dmin, dmax 
或 davg. 


PISS BARRE. 


PIER ARSE A FEM. 


i* < j*. 
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两 个 聚 类 簇 进行 合并 , 该 过 程 不 断 重 复 , HPAIMERRK EANA. 这 里 的 关 
键 是 如 何 计 算 聚 类 簇 之 间 的 距离 . 实际 上 ， 每 个 簇 是 一 个 样本 集合 , 因此 , 只 需 


采用 关于 集合 的 某 种 距离 即 可 . 例如 , BRR CO, 与 0;, 可 通过 下 面 的 式 子 


来 计算 距离 : | 
最 小 距离 : dmin(Ci, C;) = „pin „ dist(æ, z) , (9.41) 
最 大 距离 : dmax(Ci, Cj) = Bo dist(x, z) , (9.42) 
平均 距离 : dave(Ci, Cj) = DC >. ` dist(z, z) . (9.43) 
aa jl BEC; zEC; 


显然 , 最 小 距离 由 两 个 簇 的 最 近 样本 决定 , BARES HMR, 
而 平均 距离 则 由 两 个 簇 的 所 有 样本 共同 决定 ， 当 育 类 簇 距离 由 dmn dmax 或 


输入 : PEARSE D = {zza .zm}; 
育 类 簇 距离 度量 函数 d， 
RRM k. 


for 7 = 1,2,...,m do 


for j = 1,2,...,m do 
M (i,j) = d(Ci, C5); 
M(j, i) = M(i, j) 


end for | 
10: RE 4WRARTA g=m 
11: while q > k do 
12: SRE BLN TE Cy» 和 Cj»; 
13: A Ci 和 Cjr = Cy U Cie; 
14, forj=jJj* +13" om ..,q do 
15: 将 聚 类 艇 Cj 重 编号 为 Cj 
16: end for 
17: “删除 距离 矩阵 M 的 第 j* 行 与 第 六 列 ; 
18: for7=1,2,...,q—1do 
19: M (i*, j) 一 d(Ci*, C;); 
20: M(j, i*) = M(i*, j) 
21: end for 
22: q=q—1 
23: end while 
输出 : PREIS C = {C1, C2,..., Ck} 


9.11 AGNES 算法 
ww ai bbt. com TAAWAOAA 
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dave WEIN, AGNES 算法 被 相应 地 称 为 “ 单 链 接 ”(single-linkage)、“ 全 链 
接 ”(complete-linkage) 或 “ 均 链 接 ”(average-linkage) 算 法 . 
AGNES 算法 描述 如 图 9.11 所 示 . 在 第 1-9 行 , 算法 先 对 仅 含 一 个 样本 的 
初始 聚 类 簇 和 相应 的 距离 矩阵 进行 初始 化 ; 然后 在 第 11-23 行 , AGNES 不 断 合 
I+ FB PS UT AY SRR, 并 对 合并 得 到 的 聚 类 艇 的 距离 矩阵 进行 更 新 ; 上 述 过 程 
不 断 重复 , APIA BIH RAR. 
4.0 见 p.202 以 西瓜 数据 集 4.0 为 例 , > AGNES 算法 一 直 执 行 到 所 有 样本 出 现在 同一 
ba MBH, BD k = 1, 则 可 得 到 图 9.12 所 示 的 “ 树 状 图 ” (dendrogram), 其 中 每 层 
链接 一 组 聚 类 复 . | 


FRE BE 





0 
1 2926 2 2221 3 4 23 25 28 243027 5 7 917131416 6 8 1819 10 20 15 11 12 
样本 编号 


9.12 西瓜 数据 集 4.0 上 AGNES 算法 生成 的 树 状 图 (采用 dmax). 横 轴 对 应 于 样本 ， 
编号 , DEAT LT RARE A. ` 


在 树 状 图 的 特定 层次 上 进行 分 割 , 则 可 得 到 相应 的 能 划分 结果 . 例如 , 以 图 
9.12 HATA EAA HIP RA, 将 得 到 包含 7 个 聚 类 簇 的 结果 : 
C1 = {a1, £26, £29}; C2 = {x2, x3, £4, 221, 229}; 
C3 = {£23, £24, B25, E27, £28, 230}; C4 = {as, 27}; 
Cs = {£9, £13, £14, £16, £17}; Ce = {Z6, £8, L10, L15, Lig, L19, £20}; 


C7 = {£1, T12}. 
ww ai bbt. com PO0O0O0ODODOO 





9.7 阅读 材料 


例如 同一 堆 水 有 果 , 既 能 
按 大 小 , 也 能 按 颜色 , 甚至 
能 按 产 地 聚 类 . 
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将 分 割 层 逐步 提升 , 则 可 得 到 聚 类 艇 逐渐 减 少 的 聚 类 结果 . 例如 图 9.13 & 
示 出 了 从 图 9.12 中 产生 7 至 4 个 聚 类 簇 的 划分 结果 . 


含 糖 率 





i oe 
0.1 0.2 0.3 0.4 0.6 0.7 0.8 0.9 1 0.2 0.3 0.4 


0.5 0.5 0.6 0.7 0.8 0.9 
密度 密度 
(a) RŽ AA R=T b) REI k = 6 





0 0.2 0.3 0.4 


0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 
密度 密度 
(c) RRA k = 5 (d) RAR k = 4 


图 9.13 西瓜 数据 集 4.0 AGNES 算法 (采用 dusx) 在 不 同 聚 类 化 数 (k = 7, 6, 5, 4) AT 
DRADER. 样本 点 用 “e@” 表 示 , EMR BT RRND. 


9.7 阅读 材料 


聚 类 也 许 是 机 器 学 习 中 “新 算法 ”出 现 最 多 、 最 快 的 领域 . 一 个 重要 原因 
是 聚 类 不 存在 客观 标准 ; 给 定数 据 集 , 总 能 从 某 个 角度 找到 以 往 算 法 未 覆盖 的 
某 种 标准 从 而 设计 出 新 算法 [Estivill-Castro, 2002]. 相对 于 机 器 学 习 其 他 分 文 
来 说 , 聚 类 的 知识 还 不 够 系统 化 , 因此 著名 教科 书 [Mitchell, 1997] 中 甚至 没有 
关于 聚 类 的 章节 . 但 聚 类 技术 本 身 在 现实 任务 中 非常 重要 , 因此 本 章 勉 强 采 用 
了 “列举 去 RENTA, Aa Mth Be eee i BE Zo SAH. TAS 





218 


距离 度量 学 习 参见 10.6 


+a 


a 


Ty FG SRE Hy BP A “AH 
FR” WSR EA, 


Bregman 距离 , 亦 称 
Bregman divergence, 是 一 


类 不 满足 对 称 性 和 直 递 性 


的 距离 . 


降 维 参见 第 10 =. 


更 多 的 内 容 , 可 参阅 这 方面 的 专门 书籍 和 综述 文章 如 [Jain and Dubes, 1988; 
Jain et al., 1999; Xu and Wunsch II, 2005; Jain, 2009] =. 

聚 类 性 能 度量 除 9.2 市 的 内 容 外 , 常见 的 还 有 下 值 、 互 信息 (mutual 
information)、 平 均 廊 宽 (average silhouette width) [Rousseeuw, 1987] 等 , 可 


- 参阅 [Jain and Dubes, 1988; Halkidi et al., 2001; Maulik and Bandyopadhyay, 


2002]. 
距离 计算 是 很 多 学 习 任 务 的 核心 技术 . 闵可夫 斯 基 距 离 提 供 了 距离 计算 的 _ 


一 般 形式 . 除 闵 可 夫 斯 基 距 离 之 外 , 内 积 距 离 、 余 弦 距 离 等 也 很 常用 , 可 参阅 


[Deza and Deza, 2009]. MinkovDM 在 [Zhou and Yu, 2005] 中 正式 给 出 . 模式 
识别 、 图 像 检索 等 涉及 复杂 语义 的 应 用 中 常会 涉及 非 度量 距离 [Jacobs et al., 
2000; Tan et al., 2009]. 距离 度量 学 习 可 直接 嵌入 到 聚 类 学 习 过 程 中 [Xing et 
al., 2003]. | | | 


k 均值 算法 可 看 作 高 斯 混合 聚 类 在 混合 成 分 方差 相等 、 且 每 个 样本 仅 指 
派 给 一 个 混合 成 分 时 的 特例 . 该 算法 在 历史 上 曾 被 不 同 领域 的 学 者 多 次 重 
新 发 明 , 如 Steinhaus 在 1956 Æ., Lloyd Æ 1957 Æ, McQueen 在 1967 年 等 
[Jain and Dubes, 1988; Jain, 2009]. & 均值 算法 有 大 量变 体 , 如 k-medoids 算 
法 [Kaufman and Rousseeuw, 1987] 强制 原型 向 量 必 为 训练 样本 , k-modes 算 
法 [Huang, 1998] 可 处 理 离 散 属性 , Fuzzy C-means (简称 FCM) [Bezdek, 1981] 
则 是 “ 软 聚 类 ”(soft clustering) 算法 , 允许 每 个 样本 以 不 同 程度 同时 属于 多 个 
原型 . 需 注 意 的 是 , 均值 类 算法 仅 在 凸 形 复 结构 上 效果 较 好 . 最 近 研究 表明 ， 
若 采用 某 种 Bregman 距离 , 则 可 显著 增强 此 类 算法 对 更 多 类 型 秘 结 构 的 适用 性 


[Banerjee et al., 2005). 引入 核 技巧 则 可 得 到 核 k IE (kernel k-means) 算法 


[Schélkopf et al., 1998], 这 与 谱 聚 类 (spectral clustering) [von Luxburg, 2007] 
有 密切 联系 [Dhillon et al., 2004], 后 者 可 看 作 在 拉 普 拉 斯 特征 映射 (Laplacian 
Eigenmap) ERIT k HERK. RAM 通常 需 由 用 户 提供 , 有 一 些 启 
发 式 用 于 自动 确定 天 [Pelleg and Moore, 2000; Tibshirani et al., 2001], 但 常用 


的 仍 是 基于 不 同 值 多 次 运行 后 选取 最 佳 结果 . 


LVQ 算法 在 每 轮 入 代 中 仅 更 新 与 当前 样本 距离 最 近 的 原型 向 量 ， 同时 
更 新 多 个 原型 向 量 能 显著 提高 收敛 速度 , 相应 的 改进 算法 有 LVQ2、LVQ3 等 
[Kohonen, 2001]. [McLachlan and Peel, 2000] 详细 介绍 了 高 斯 混合 聚 类 , 算法 
中 EM 和 迭代 优化 的 推导 过 程 可 参阅 [Bilmes, 1998; Jain and Dubes, 1988]. 

采用 不 同方 式 表征 样本 分 布 的 紧密 程度 , 可 设计 出 不 同 的 密度 聚 类 算 
法 , 除 DBSCAN [Ester et al., 1996] 外 ， ac N 的 还 有 OPTICS [Ankerst et al., 


| . CoM 





9.7 阅读 材料 


亦 称 outlier detection. 
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1999], DENCLUE [Hinneburg and Keim, 1998] 等 . AGNES [Kaufman and 
Rousseeuw, 1990] 采用 了 和 上 自 底 和 同上 的 聚合 策略 来 产生 层次 聚 类 结构 , 与 之 相 
fz, DIANA [Kaufman and Rousseeuw, 1990] 则 是 采用 目 顶 同 下 的 分 拆 策略 . 
AGNES 和 DIANA 都 不 能 对 已 合并 或 已 分 拆 的 聚 类 簇 进行 回溯 调整 , 常用 的 
层次 聚 类 算法 如 BIRCH [Zhang et al., 1996], ROCK [Guha et al., 1999] 等 对 
此 进行 了 改进 . 

聚 类 集成 (clustering ensemble) 通过 对 多 个 聚 类 学 习 器 进行 集成 , 能 有 效 
降低 聚 类 假设 与 真实 聚 类 结构 不 符 、 聚 类 过 程 中 的 随机 性 等 因素 帝 来 的 不 利 
影响 , 可 参阅 [Zhou, 2012] 第 7 Æ. 

异常 检测 (anomaly detection) [Hodge and Austin, 2004; Chandola et 
al., 2009] 常 借 助 聚 类 或 距离 计算 进行 , 如 将 远离 所 有 簇 中 心 的 样本 作为 


异常 点 , 或 将 密度 极 低 处 的 样本 作为 异常 上 尽 ， 最 近 有 研究 提出 基于 “隔离 


性 ” (isolation) 可 快速 检测 出 异常 点 [Liu et al., 2012]. 
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西瓜 数据 集 4.0 见 p.202 
表 9.1. 


BP th WG IRIEN. 


9.2 


9.3 


9.4 


9.5 


9.6 


9.7 


9.8 
9.9* 


9.10* 


试 证 明 : p > 工时 ， 闵可夫 斯 基 距离 满足 距离 度量 的 四 条 基本 性 质 
0 入 D<1 时 ,闵可夫 斯 基 上 距离 不 满足 直 递 性 , 但 满足 非 负 性 、 同 一 
性 、 对 称 性 ; p 趋向 无 穷 大 时 ， 闵可夫 斯 基 距 离 等 于 对 应 分 量 的 最 大 绝 
对 距离 ,， 即 


lim (> Lig = Bju 站 = max ep Das 


同一 样本 空间 中 的 集合 X 与 Z 之 间 的 距离 可 通过 “ 豪 斯 多 夫 距 
离 ”(Hausdorf distance) 计 算 : 


disty(X, Z) = max (disty(X, Z), disty(Z,X)) ， (9.44) 


其 中 | 

dist, (X, Ti max min ||æ — ||2 . (9.45) 
WEN: 豪 斯 多 夫 距 离 满足 距离 度量 的 四 条 基本 性 质 . 
试 析 均值 算法 能 否 找到 最 小 化 式 (9.24) 的 最 优 解 . 


试 编程 实现 均值 算法 , 设置 三 组 不 同 的 值 、 三 组 不 同 初始 中 心 点 ， 
在 西瓜 数据 集 4.0 上 进行 实验 比较 , 并 讨论 什么 样 的 初始 中 心 有 利于 
取得 好 结果 . 


So 
样本 构成 的 集合 为 X. 试 证 明 : X 满足 连接 性 (9.39) 与 最 大 性 (9.40). 


试 析 AGNES 算法 使 用 最 小 距离 和 最 大 距离 的 区 别 


育 类 结果 中 若 每 个 角 都 有 一 个 屿 包 (包含 簇 样本 的 凸 多 面体 ), 且 这 
ines QUARK A HARE. 试 析 本 章 介 绍 的 哪些 聚 类 算法 只 能 产 
RR, 哪些 能 产生 非 凸 聚 关 . 


试 设计 一 个 聚 类 性 能 度量 指标 , 并 与 9.2 节 中 的 指标 比较 . 
试 设计 一 个 能 用 于 混合 属性 的 非 度量 距离 ， 


坛 设计 一 个 能 自动 确定 到 半数 的 改进 均 信 算 法 ,编程 实 现 并 在 本 
数据 集 4.0 上 运行 . 
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今 立 陶 宛 的 考 纳 斯 
(Kaunas). 


哥 尼 斯 堡 是 著名 的 “七 
桥 问题 ”发 源 地 , 今 俄 罗 
斯 加 里 宁 格 勒 . 


四 维 时 空 亦 称 “闵可夫 
斯 基 时 空 ” 或 “闵可夫 斯 
基 空 间 ”. 


man & Hall/CRC, Boca Raton, FL. 
Zhou, Z.-H. and Y. Yu. (2005). “Ensembling local learners through multimodal 


perturbation.” IEEE Transactions on Systems, Man, and Cybernetics - Part 
B: Cybernetics, 35(4):725—-735. 


小 故事 : BME WBE a hk OR + BLT A WHE 

曼哈顿 距离 (Manhattan distance) 亦 称 “ 出 租车 几 
何 ”(Taxicab geometry), 2 #2 E AK RK ik OS R 
A HA (Hermann Minkowski, 1864—1909) 所 创 的 词汇 , 其 
得 名 是 由 于 该 距离 标明 了 几何 度量 空间 中 两 点 在 标准 坐标 
系 上 的 绝对 轴 距 总 和 , 这 恰 和 是 规划 为 方形 区 块 的 城市 里 两 点 
之 间 的 最 短 行程 , 例如 从 曼哈顿 的 第 五 大 道 与 33 街 交 点 前 往 第 三 大 道 与 23 街 
oR, ew (5 — 3) + (33 — 23) = 12 MEE. 

闵可夫 斯 基 出 生 于 俄国 亚 力克 索 搭 斯 (Alexotas) 的 一 个 犹太 人 家 庭 , 由 于 
当时 俄国 政府 迫害 犹太 人 , 他 八 岁 时 随 全 家 移居 普鲁士 哥 尼 斯 堡 , 与 后 来 成 为 
大 数学 家 的 希 尔 伯 特 一 河 之 隔 . 加 可 夫 斯 基 从 小 就 是 著名 神童 , 他 熟 读 莎 士 比 
亚 、 席 勒 和 歌德 的 作品 , 几乎 能 全 文 背 诵 《 浮 士 德 》; 八 岁 进入 预科 学 校 , 仅 用 
五 年 半 就 完成 了 八 年 的 学 业 ; 十 七 岁 时 建立 了 nn 元 二 次 型 的 完整 理论 体系 , 解 
决 了 法 国 科 学 院 公 开 甚 赏 的 数学 难题 . 1908 年 9 月 他 在 科隆 的 一 次 学 术 会 议 上 
做 了 《空间 与 时 间 》 的 著名 演讲 , 提出 了 四 维 时 空 理 论 , 为 广义 相对 论 的 建立 
开辟 了 道路 . 不 幸 的 是 , 三 个 月 后 他 死 于 急性 阑尾 炎 . 

1896 年 风 可 夫 斯 基 在 苏黎世 大 学 任教 期 间 , 是 爱 因 斯 坦 的 数学 老师 . te Vl 
尔 物 理学 奖 得 主 玻 轧 曾 说 , EM TAMARA LEP RAY HANES 
武器 库 ”. 国 可 夫 斯 基 去 世 后 , 其 生前 好 友和 希 尔 但 特 整理 了 他 的 遗 作 , 于 1911 
年 出 版 了 《闵可夫 斯 基 全 集 》. 闵可夫 斯 基 的 哥哥 奥斯卡 是 “胰岛 素 之 父 ”， 
侄子 重庆 夫 是 美国 著名 天 文学 家 . 
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10.1 大 近邻 学 习 


k 近邻 (k-Nearest Neighbor, 简称 KNN) 学 习 是 一 种 常用 的 监督 学 习 方 法 ， 
其 工作 机 制 非 常 简单 : 给 定 测试 样本 , 基于 某 种 距离 度量 找 出 训练 集中 与 其 最 
Pek “ 近 朱 者 亦 , 近 时 ”靠近 的 天 个 训练 样本 , 然后 基于 这 天 个 “邻居 ”的 信息 来 进行 预测 . 通常 , 在 分 
类 任务 中 可 使 用 “投票 法 ”, 即 选择 这 上 个 样本 中 出 现 最 多 的 类 别 标记 作为 预 
测 结果 ; 在 回归 任务 中 可 使 用 “平均 法 ”, 即将 这 大 个 样本 的 实 值 输出 标记 的 
平均 值 作为 预测 结果 ; 还 可 基于 距离 远近 进行 加 权 平均 或 加 权 投 票 , 距离 越 近 
G5 的 样本 权重 越 大 . 
与 前 面 介 绍 的 学 习 方法 相 比 , k 近邻 学 习 有 一 个 明显 的 不 同 之 处 : 它 似乎 
没有 显 式 的 训练 过 程 ! 事实 上 , 它 是 “懒惰 学 习 ”(lazy learning) 的 著名 代表 ， 
此 类 学 习 技术 在 训练 阶段 仅仅 是 把 样本 保存 起 来 , 训练 时 间 开 销 为 零 , 待 收 到 
测试 样本 后 再 进行 处 理 ; 相应 的 , 那些 在 训练 阶段 就 对 样本 进行 学 习 处 理 的 方 
法 , 称 为 “急切 学 习 ”(eager learning). 
图 10.1 给 出 了 天 近邻 分 类 器 的 一 个 示意 图 . 显然 , k 是 一 个 重要 参数 , 4k 
取 不 同 值 时 , 分 类 结果 会 有 显著 不 同 . 另 一 方面 , 若 采 用 不 同 的 距离 计算 方式 ， 
则 找 出 的 “近邻 ”可 能 有 显著 差别 , 从 而 也 会 导致 分 类 结果 有 显著 不 同 . 
暂且 假设 距离 计算 是 “恰当 ”的 , 即 能 够 恰当 地 找 出 有 个 近邻 , 我 们 来 对 
“最 近邻 分 类 器 ”(1NN, 即 二 1) 在 二 分 类 问题 上 的 性 能 做 一 个 简单 的 讨论 . 


一 一 一 一 
`~ 
~ 


# > N 人 
/ a Bis \ a . 
f y paan % 一 ?判别 为 十 
i+ y Ps ~ 了 \ 
.- 
I | { z Í p] , 
\ \ \+ 测试 i. |. > ? 判别 为 一 
\ NO RB Tj 
\ = ~~ 一 一 Pá /一 > k= 5 
过 Me se 十 / 9 ， 
k Sapi 一 ?判别 为 + 
i z 
it.. >” 


~ a” 
~ a oe 


10.1 天 近邻 分 类 器 示意 图 . 虚线 显示 出 等 距 线 ; 测试 样本 在 二 1 或 kk 二 5 时 被 判 
BAER, k= 3 时 被 判别 为 反例 . 
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给 定 测试 样本 z, 车 其 最 近邻 样本 为 z, 则 最 近邻 分 类 器 出 错 的 概率 就 是 
与 z 类别 标 记 不 同 的 概率 , 即 


ga 三 二 = > P(e| zyPre | z). | (10.1) 
cey 


假设 样本 独立 同 分 布 , 且 对 任意 x 和 任意 小 正 数 5, 在 e 附近 5 距离 范围 
内 总 能 找到 一 个 训练 样本 ; 换言之 , 对 任意 测试 样本 , 总 能 在 任意 近 的 范围 内 找 


到 式 (10.1) 中 的 训练 样本 z. 令 c* = argmaxcey P(c | z) 表示 贝 叶 斯 最 优 分 类 ， 
Dna! 器 的 结果 ， 有 
节 , 
| P(err) =1- SY P(e | æ)P(e | z) 
cEy a 
x1- P2(c|z) 
cEy 
<1-P*(c*| x) 
= (14+ P(c*| x) )(1—P(c* | =) 


a ©)) / (10.2) 


为 便于 初学 者 理解 ,本 K ps AB ee Ws y= 
为 便 于 初学 者 理解 , 本 于 是 我 们 得 到 了 有 点 令 人 惊讶 的 结论 : 最 近邻 分 类 器 虽 简 单 , 但 它 的 泛 化 错误 


更 严格 的 分 析 参 半 [Cover ， 率 不 超过 由 et 


and Hart, 1967]. 


10.2 ARERR A 


”上 一 节 的 讨论 是 基于 一 个 重要 假设 : 任意 测试 样本 z 附近 任意 小 的 5 距 

离 范围 内 总 能 找到 一 个 训练 样本 , 即 训练 样本 的 采样 密度 足够 大 , 或 称 为 “ 密 

采样 ”(dense sample). 然而 , 这 个 假设 在 现实 任务 中 通常 很 难 满 足 , 例如 若 

6 = 0.001, 仅 考虑 单个 属性 , 则 仅 需 1000 个 样本 点 平均 分 布 在 归 一 化 后 的 属 

性 取 值 范围 内 , 即 可 使 得 任意 测试 样本 在 其 附近 0.001 距离 范围 内 总 能 找到 一 

个 训练 样本 , 此 时 最 近邻 分 类 器 的 错误 率 不 超过 贝 叶 斯 最 优 分 类 器 的 错误 率 

的 两 倍 . 然而 , 这 仅 是 属性 维 数 为 1 的 情形 , 若 有 更 多 的 属性 , 则 情况 会 发 生 

显著 变化 . 例如 假定 属性 维 数 为 20, 若 要 求 样 本 满足 密 采 样 条 件 , 则 至 少 需 
为 FENE (103)20 = 1060 个 样本 . 现实 应 用 中 属性 维 数 经 常 成 千 上 万 , 要 满足 密 采样 条 件 
(CERE HEAL fe 所 需 的 样本 数目 是 无 法 达到 的 天 文 数字 . 此 外 ， 许多 学 习 方 法 都 涉及 距离 计算 ， 


0 而 高 维 空间 会 给 距离 计算 带 来 很 大 的 麻烦 , 例如 当 维 数 很 高 时 其 至 连 计算 内 积 
ww ai bbt.com TOOOO00 





10.2 RERA 037 


都 不 再 容易 . 
事实 上 , 在 高 维 情形 下 出 现 的 数据 样本 稀 臣 、 距 离 计算 困 难 等 问题 ， 


Polman DIETER EER D E A EES, 被 称 为 “ 维 数 灾难 ”(curse of 


“ 维 数 危机 ”. dimensionality). 
缓解 维 数 灾 难 的 一 个 重要 途径 是 降 维 (dimension reduction), Jh#K “HER 
另 一 个 重要 途径 是 特征 Ake 99 wwe wy. yy r LP PD » r e PA 
选择 argus — AW”, 即 通过 某 种 数学 变换 将 原始 高 维 属性 空间 转变 为 一 个 低 维 “ 子 空 


间 ”(subspace), 在 这 个 子 空间 中 样本 密度 大 幅 提 高 , 距离 计算 也 变 得 更 为 容 
Sy. 为 什么 能 进行 降 维 ? 这 是 因为 在 很 多 时 候 , 人 们 观测 或 收集 到 的 数据 样本 
BERK, 但 与 学 习 任务 密切 相关 的 也 许 仅 是 某 个 低 维 分 布 , 即 高 维 空间 中 
HI —“MER2E “HRA” (embedding). 图 10.2 给 出 了 一 个 直观 的 例子 . 原始 高 维 
空间 中 的 样本 后, AER “MIRE RAP IB] PEAS Sy EFT A | 








(a) 三 维 空间 中 观察 到 的 样本 点 (b) 二 维 空间 中 的 曲面 
10.2 {AZ#KA TEA 


行 要 求 原 始 空间 中 样本 之 间 的 距离 在 低 维 空 间 中 得 以 保持 , 如 图 10.2 所 
示 , 即 得 到 “多 维 缩放 ”(Mmultiple Dimensional Scaling, 简称 MDS) [Cox and 
Cox, 2001] 这 样 一 种 经 典 的 降 维 方法 . 下 面 做 一 个 简单 的 介绍 . 

假定 m 个 样本 在 原始 空间 的 距离 矩阵 为 D e R™*™, 其 第 4 行 了 列 的 元 
素 disti; 为 样本 a; 到 x; 的 距离 . 我 们 的 目标 是 获得 样本 在 d 维 空间 的 表示 
Z ce R4 xm, d <d, 且 任 意 两 个 样本 在 d’ 维 空间 中 的 欧 氏 距离 等 于 原始 空间 中 
的 距离 , 即 |z; 一 zj 上 | = distiz. 

&B=Z'ZeER™™, 其 中 BB 为 降 维 后 样本 的 内 积 和 矩阵 , bi; = zi zj 有 


dist = |z? + zll? — 222 z, 


at ies eS OD 10. 
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cen! 为 全 孚 向 旺 ”为 便于 讨论 , 令 降 维 后 的 样本 2 被 中 心 化 , MYT, z= 0. 显然 , EEB 
的 行 与 列 之 和 均 为 零 , BM by 二 开 by = 0. 易 知 


3 dist% = = tr(B) + mb;; , 7 (10.4) 

Sas = tr(B) + mb; , | ~ (10.5) 
` > dist = 2m tr(B) a (10.6) 
i=1 j=1 


其 中 tr(.) 表示 矩阵 的 迹 (tracej, tr(B) = Z% Izl? > | 


dist? = — matt (10.7) | 

dist?, = 一 = Let l (10.8) 

dist? = — ae ~ (10.9) 
i=l j=1 . 


由 式 (10.3) 和 式 (10.4)~(10.9) 可 得 
bi; = -1 (dist? — dist? — 一 dist’; + dist?) (10.10) 


”由 此 即 可 通过 降 维 前 后 保持 不 变 的 距离 矩阵 D OER AAR AE B. 
对 和 矩阵 B 做 特征 值 分 解 (eigenvalue decomposition), B = VAVT, 其 中 
A = diag( 和 1, Àz, .…, Aa) 为 特征 值 构 成 的 对 角 和 矩阵 , Ay > A2 >... > Aa V 
为 特征 回 量 和 矩阵， 假定 其 中 有 t 个 非 零 特征 值 ， risa cele Ay = 
diag(A1, A2,-.., Aa), & Vs 表示 相应 的 特征 向 量 矩 阵 ， N Z 可 表达 为 


Z = APVT e REM, (10.11) 
在 现实 应 用 中 为 了 有 效 降 维 , 往往 仅 需 降 维 后 的 距离 与 原始 空间 中 的 距离 


尽 可 能 接近 , 而 不 必 严 格 相等 .此 时 可 取 9% < 4 个 最 大 特征 值 构 成 对 角 和 矩阵 
A = diag( 和 1, 和 2,.…, 和 yw), 令 V 表示 相应 的 特征 向 量 和 矩阵 , W Z 可 表达 为 ” 
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”通常 


Ad Kd. 


229 
Z = AV2VT eR mm, (10.12) 
图 10.3 给 出 了 MDS 算法 的 描述 . 


输入 : 距离 矩阵 D e R™*™, 其 元 素 disti; 为 样本 x; 到 x; 的 距离 ; 
低 维 空间 维 数 d. 
过 程 : 


1: 根据 式 (10.7)~(10.9) 计 算 dist?, dist®., dist?; 

2: 根据 式 (10.10) 计 算 和 矩阵 B; 

3: OREM B 做 特征 值 分 解 ; 

4: RAH d’ ABA IEA ELST RAK FAB, V 为 相应 的 特征 向 量 矩 阵 . 


输出 : 矩阵 VAN e RTI, 每 行 是 一 个 样本 的 低 维 坐标 


10.3 MDS 算法 


一 般 来 说 , 欲 获 得 低 维 子 空间 , 最 简单 的 是 对 原始 高 维 空间 进行 线性 变换 . 
给 定 d 维 空间 中 的 样本 K = (zl z2,……，,zm) E RX, 变换 之 后 得 到 d < d 维 
空间 中 的 样本 

Z = WTX, ~ (10.13) 


其 中 W e Raxd 是 变换 矩阵 , Z e 及? xm 是 样本 在 新 空间 中 的 表达 . 


变换 矩阵 W 可 视 为 d 个 a 维基 向 量 , z = W zi 是 第 :个 样本 与 这 中 个 
基 问 量 分 别 做 内 积 而 得 到 的 d 维 属 性 向 量 . 换言之 , zi 是 原 属性 问 量 x; 在 新 


MARR {ww war} 中 的 坐标 向 量 , 车 wi 与 wj (i A j) ER, 则 新 坐标 
系 是 一 个 正 交 坐 标 系 , 此 时 W 为 正 交 变换 , 显然, 新 空间 中 的 属性 是 原 空间 中 


属性 的 线性 组 合 . 

基于 线性 变换 来 进行 降 维 的 方法 称 为 线性 降 维 方法 , 它们 都 符合 

式 (10.13) 的 基本 形式 , 不 同 之 处 是 对 低 维 子 空间 的 性 质 有 不 同 的 要 求 , 相 

当 于 对 W 施加 了 不 同 的 约束 . 在 下 一 市 我 们 将 会 看 到 ， 震 要 求 低 维 了 空间 对 样 
本 具有 最 大 可 分 性 , 则 将 得 到 一 种 极为 常用 的 线性 降 维 方法 . 

对 降 维 效果 的 评估 , 通常 是 比较 降 维 前 后 学 习 器 的 性 能 , 若 性 能 有 所 提高 

则 认为 降 维 起 到 了 作用 . 若 将 维 数 降 至 二 维 或 三 维 , 则 可 通过 可 视 化 技术 来 直 


观 地 判断 降 维 效 打 . 


10.3 主 成 分 分 析 


主 成 分 分 析 (Principal Component Analysis, 简称 PCA) 是 最 常用 的 一 种 
降 维 方法 . 在 介 介绍 PCA 各 他 不妨 告 考 谋 这 笠 一 1 问题 : 对 于 正 交 属性 空间 中 
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的 样本 点 , 如 何 用 一 个 超 平面 (直线 的 高 维 推广 ) 对 所 有 样本 进行 恰当 的 表达 ? 
容易 想到 , 若 存在 这 样 的 超 平面 , 那么 它 大 概 应 具有 这 样 的 性 质 : 
_。 最 近 重 构 性 : 样本 点 到 这 个 超 平面 的 距离 都 足够 近 ， 
。 最 大 可 分 性 : 样本 点 在 这 个 超 平面 上 的 投影 能 尽 可 能 分 开 . 


有 趣 的 是 , 基于 最 近 重 构 性 和 最 大 可 分 性 , 能 分 别 得 到 主 成 分 分 析 的 两 种 
等 价 推导 . 我 们 先 从 最 近 重 构 性 来 推导 | n 
”假定 数据 样本 进行 了 中 心 化 , 即 D; mi; = 0; 再 假定 投影 变换 后 得 到 的 新 坐 = 
标 系 为 {w1, w2... wa}, 其 中 wi 是 标准 正 交 基 回 量 , ||will2 = 1, ww; 一 0 
(i Aj). 车 丢弃 新 坐标 系 中 的 部 分 坐标 , 即将 维度 降低 到 d < d, 则 样本 点 x 
在 低 维 坐标 系 中 的 投影 是 zi = (zi1; zi2; .…; zie), 其 中 zj = gzi 是 zi 在 低 
维 坐标 系 下 第 j 维 的 坐标 . 若 基于 zi KEM zi, 则 会 得 到 会 = We, ziw. 
考虑 整个 训练 集 , 原样 本 点 z; 与 基于 投影 重 构 的 样本 点 2 之 间 的 距离 为 














2 7 
m d' m m 
const 是 一 个 常数 . ` ` ZijWj — Til| = > zi) zi —2 > zi WI + const 

| i=1 ||j=1 ~ ll。 #1 i=1 

x —tr (w b> st w) i (10.14) 

| i=1 
根据 最 近 重 构 性 , 式 (10.14) 应 被 最 小 化 , 考虑 到 wj 是 标准 正 交 基 , Do, wie} 
是 协 方差 矩阵 , 有 OEE 
min — tr (WTXXTW) (10.15) 


st. WTW =I. 


这 就 是 主 成 分 分 析 的 优化 目标 . 
“从 最 大 可 分 性 出 发 , 能 得 到 主 成 分 分 析 的 另 一 种 解释 . 我 们 知道 , 样本 点 
zi 在 新 空间 中 超 平面 上 的 投影 是 WTzi, 若 所 有 样本 点 的 投影 能 尽 可 能 分 开 
则 应 该 使 投影 后 样本 点 的 方差 最 大 化 , 如 图 10.4 所 示 . | 
投影 后 样本 点 的 方差 是 DO, W eal W, 于 是 优化 目标 可 写 为 


max tr(WTXXTW) (10.16) 
st. WIW =I, 
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”实践 中 常 通过 对 入 进行 
奇异 值 分 解 来 代替 协 方差 
矩阵 的 特征 值 分 解 . 


PCA 也 可 看 作 是 逐一 选 
取 方 差 最 大 方向 , 即 先 对 
WA FEM > ;zizi 做 
特征 值 分 解 , 取 最 大 特征 
值 对 应 的 特征 向 量 wi; 
再 对 ee ae? = Awiw? 
做 特征 值 分 解 ， 取 最 大 特 
征 值 对 应 的 特征 向 量 wo; 
T 由 W 各 分 量 正 交 及 


m d 

X aix = > Ajwjw? 
i=1 ` j=1 
Th, 上 述 逐 一 选取 方差 


最 大 方向 的 做 法 与 直接 选 
取 最 大 d 个 特征 值 等 价 ， 
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T2 


a 
př 

Eig 
2 









”方差 = 0.206 


方差 二 0.045 
0 1 a. Tı 





10.4 使 所 有 样本 的 投影 尽 可 能 分 开 ( 如 图 中 红线 所 示 ), 则 需 最 大 化 投影 点 的 方差 


显然 ， 式 (10.16) 与 (10.15) 等 价 . 


对 式 (10.15) 或 (10.16) 使 用 拉 格 明日 乘 子 法 可 得 


XXW = dW ， (10.17) 
于 是 ， 只 需 对 协 方差 矩阵 XX 进行 特征 值 分 解 , 将 求 得 的 特征 值 排序 : 
M > à >... > Xa, BRAT d 个 特征 值 对 应 的 特征 向 量 构成 W = 
wa). 这 就 是 主 成 分 分 析 的 解 . PCA 算法 描述 如 图 10.5 所 示 . 


(w, 
102,... 


输入 : FASE D = {£1, £2, cir 
低 维 空间 维 数 4g. 

1: 对 所 有 样本 进行 中 心 化 : mi m- 2%, ma 

2: 计算 样本 的 协 方差 矩阵 XX"; 

3: 对 协 方差 矩阵 XXT 做 特征 值 分 解 ; 

4: 取 最 大 的 d 个 特征 值 所 对 应 的 特征 问 量 w, wa, ... 

输出 : 投影 矩阵 W = , Wa’). 


Eny: 


) Wa’. 
(w1, We, see 


10.5 PCA 算法 


RR REE Te AE! A PE, 或 通过 在 d 值 不 同 的 
低 维 空间 中 对 近邻 分 类 器 (或 其 他 开销 较 小 的 学 习 器 ) 进行 交叉 验证 来 选取 
较 好 的 d' 值 . 对 PCA, SN a 例如 t= 二 95%, 然 
后 选取 使 下 式 成 立 的 最 小 d’ 值 : | 


De Ài 


7 > hae 
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保存 均值 向 量 是 为 了 通 
过 向 量 减法 对 新 样本 同样 


进行 中 心 化 . 
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PCA 仅 需 保留 W 与 样本 的 均值 问 量 即 可 通过 简单 的 问 量 减法 和 和 矩阵 -向 
量 乘 法 将 新 样本 投影 至 低 维 空间 中 . 显然 , 低 维 空间 与 原始 高 维 空间 必 有 不 同 ， 
因为 对 应 于 最 小 的 d — A’ 个 特征 值 的 特征 问 量 被 舍弃 了 , 这 是 降 维 导 致 的 结果 . 
但 舍弃 这 部 分 信息 往往 是 必要 的 : 一 方面 , 舍弃 这 部 分 信息 之 后 能 使 样本 的 采 
样 密度 增 大 , 这 正 是 降 维 的 重要 动机 ; 男 一 方面 , 当 数 据 受 到 噪声 影响 时 , 最 小 
的 特征 值 所 对 应 的 特征 网 量 往往 与 噪声 有 关 , 将 它们 舍弃 能 在 一 定 程度 上 起 到 


10.4 核 化 线性 降 维 


线性 降 维 方法 假设 从 高 维 空间 到 低 维 空间 的 函数 映射 是 线性 的 , 然而 , 在 
不 少 现实 任务 中 , 可 能 需要 非 线性 遇 射 才能 找到 恰当 的 低 维 代入 . 图 10.6 给 出 
了 一 个 例子 , 样本 点 从 二 维 空间 中 的 矩形 区 域 采 样 后 以 S 形 曲 面 租 入 到 三 维 空 
间 , 若 直 接 使 用 线性 降 维 方法 对 三 维 空间 观察 到 的 样本 点 进行 降 维 , 则 将 丢失 
原本 的 低 维 结构 . 为 了 对 “原本 采样 的 ” 低 维 空间 与 降 维 后 的 低 维 空间 加 以 区 
A, 我 们 称 前 者 为 “本 真 ”(intrinsic) 低 维 空间 . 














(a) 三 维 空间 中 的 观察 


(c) PCA 降 维 结果 


10.6 三 维 空间 中 观察 到 的 3000 个 样本 点 , 是 从 本 真 二 维 空 间 中 短 形 区 域 采 样 后 
以 S 形 曲面 详 入 , 此 情形 下 线性 降 维 会 丢失 低 维 结构 . 图 中 数据 点 的 染色 显示 出 低 维 
空间 的 结构 . 


非 线 性 降 维 的 一 种 第 用 方法 , 是 基于 核 技巧 对 线性 降 维 方法 进行 “ 核 
化 ”(kernelized)， 下面 我 们 以 核 主 成 分 分 析 (Kernelized PCA, 人 简称 KPCA) 
[Schölkopf et al., 1998] 为 例 来 进行 演示 . 
假定 我 们 将 在 高 维特 征 空 间 中 把 数据 投影 到 由 W 确定 的 超 平面 上 , 即 
PCA 欲求 解 
VS sl |W=AW, (10.19) 
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其 中 z; 是 样本 点 zx; 在 高 维特 征 空间 中 的 像 . 易 知 


1< “zi Ww 
w=} (Som?) w= Soak 


i=1 





m 
i=1 . 


其 中 oy = LTW. 假定 x, 是 由 原始 属性 空间 中 的 样本 点 ci 通过 映射 PAE, 
BY z; = d(x), i =1,2,...,m. Æ b EREAREHR, 则 通过 它 将 样本 映射 至 
高 维特 征 空间 , 再 在 特征 空间 中 实施 PCA 即 可 . 式 (10.19) 变 换 为 


> waa") W=)\W, (10.21) 
i=1 | 
式 (10.20) 变 换 为 / 
W=) (tir. (10.22) 
i=] 


一 般 情 形 下 ， 我 们 不 清楚 $ 的 具体 形式 于 是 引入 核 函 数 
klæna) = pæ) Ae) (10.23) 
将 式 (10.22) 和 (10.23) 代 入 式 (10.21) 后 化 简 可 得 
KA =)A, (10.24) 


其 中 K 为 对 应 的 核算 阵 , (K)i; = kzi £j), A = (Qi; Q2;...;Qm).， 显然 ， 
式 (10.24) 是 特征 值 分 解 问题 , 取 K 最 大 的 d 个 特征 值 对 应 的 特征 问 量 即 可 . 


对 新 样本 zx, 其 投影 后 的 第 j (7 = 1,2,...,d’) 维 坐 标 为 


zj = WI o(s) = Sof d(x)" O(a) 
2 一 工 


= 》 "ayn(ziam) , | (10.25) 


i=1 


后 的 坐标 ，KRCA SERIA REAR AL 因此 它 的 计算 开销 较 大 ， 





其 中 a, 已 经 过 规范 化 , o 是 ai 的 第 j 个 分 量 . 式 (10.25) 显 示 出 , 为 获得 投影 
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10.5 流 形 学 习 


流 形 学 习 (manifold learning) 是 一 类 借鉴 了 拓扑 流 形 概念 的 降 维 方法 . 
“ 流 形 ”是 在 局 部 与 欧 氏 空间 同 胚 的 空间 , 换言之 , 它 在 局 部 具有 欧 氏 空间 的 
性 质 , 能 用 欧 氏 距离 来 进行 距离 计算 . 这 给 降 维 方法 带 来 了 很 大 的 局 发 : AR 
维 流 形 散 入 到 高 维 空间 中 , 则 数据 样本 在 高 维 空间 的 分 布 虽然 看 上 去 非常 复杂 ， 
但 在 局 部 上 仍 上 共有 欧 氏 空间 的 性 质 , 因此 , 可 以 容易 地 在 局 部 建 并 降 维 映射 关 
KR, 然后 再 设法 将 局 部 喘 射 关系 推广 到 全 局 . 当 维 数 补 降 全 二 维 或 三 维 时 , 能 
数据 进行 可 视 化 展示 , 因此 流 形 学 习 也 可 被 用 于 可 视 化 . 本 节 介 绍 两 种 著名 的 
流 形 学 习 方 法 . 


10.5.1 等 度量 映射 





a: E (Isometric Mapping, 简称 Isomap) [Tenenbaum et al., 2000] 的 
基本 出 发 点 , 是 认为 低 维 流 形 嵌入 到 高 维 空间 之 后 , 直接 在 高 维 空间 中 计算 直 
线 距离 具有 误导 性 , 因为 高 维 空间 中 的 直线 距离 在 低 维 髓 入 流 形 上 是 不 可 达 的 . 
如 图 10.7(a) 所 示 , 低 维 舱 入 流 形 上 两 点 间 的 距离 是 “ 测 地 线 ”(geodesic) 距 离 : 
想象 一 只 虫子 从 一 点 肘 到 另 一 点 ,如果 它 不 能 脱离 曲面 行走 , 那么 图 10.7(a) 中 
的 红色 曲线 是 距离 最 短 的 路 径 , 即 $ 曲面 上 的 测 地 线 , 测 地 线 距 离 是 两 点 之 间 
的 本 真 距 离 . 显然 , 直接 在 高 维 空间 中 计算 直线 距离 是 不 恰当 的 . 








(a) 测 地 线 距 离 与 高 维 直线 距离 (b) 测 地 线 距离 与 近邻 距离 
图 10.7 低 维 说 入 流 形 上 的 测 地 线 距 离 ( 红 色 ) 不 能 用 高 维 空间 的 直线 距离 计算 , 但 外 
用 近邻 距离 来 近似 


A, 如 何 计算 测 地 线 距离 呢 ? 这 时 我 们 可 利用 流 形 在 局 部 上 与 欧 氏 空间 
同 胚 这 个 性 质 , 对 每 个 点 基于 欧 氏 距离 找 出 其 近邻 点 , 然后 就 能 建立 一 个 近邻 


连接 图 , 图 中 近邻 反之 间 存 在 连接 ， 而 非 器 邻 反之 则 个 下 在 证 入 于 是 , 计算 两 
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1972 年 图 灵 奖 得 主 E. 
W. Dijkstra 和 1978 年 图 灵 
奖 得 主 R. Floyd 分 别提 出 
的 著名 算法 , 参阅 数据 结 
构 教 科 书 . 


MDS 参见 10.2 节 . 
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点 之 间 测 地 线 距离 的 问题 , 就 转变 为 计算 近邻 连接 图 上 两 点 之 间 的 最 短路 径 问 
A R Ate ere omen ae 
的 近似 . 


在 近邻 连接 图 上 计算 两 点 间 的 最 短路 径 , 可 采用 著名 的 Dijkstra 算法 或 
Floyd 算法 , 在 得 到 任意 两 点 的 距离 之 后 , 就 可 通过 10.2 节 介绍 的 MDS 方法 来 
获得 样本 点 在 低 维 空间 中 的 坐标 . 图 10.8 给 出 了 Isomap 算法 描述 . 


输入 : ines 从 
近邻 参数 k; 
ee ER A. 


= ae eee 欧 氏 距离 , 与 其 他 点 的 距离 设置 为 无 穷 大 ; 
: end for 
: 调用 最 短路 径 算法 计算 任意 两 样本 点 之 间 的 距离 dist (xs, x5); 
: 将 dist(x;,2;) 作为 MDS 算法 的 输入 ; 
: return MDS 算法 的 输出 


输出 : 样本 集 D 在 低 维 空间 的 投影 Z = {21,20,..., 2m}. 


Sh 
Par 
ir Fal 
8 
At 殿 " 

Z 区 
=e 


10.8 Isomap 算法 


需 注意 的 是 , Isomap 仅 是 得 到 了 训练 样本 在 低 维 空间 的 坐标 , 对 于 新 样本 ， 
如 何 将 其 映射 到 低 维 空间 呢 ? 这 个 问题 的 常用 解决 方案 , 是 将 训练 样本 的 高 维 
室 间 坐标 作为 输入 、 低 维 空间 坐标 作为 输出 , 训练 一 个 回归 学 习 器 来 对 新 样本 
的 低 维 空间 坐标 进行 预测 . 这 显然 仅 是 一 个 权宜 之 计 , 但 目前 似乎 并 没有 更 好 
的 办 法 . | 

对 近邻 图 的 构建 通常 有 两 种 做 法 , 一 种 是 指定 近邻 点 个 数 , 例如 欧 氏 距离 
最 近 的 大 个 点 为 近邻 点 , 这 样 得 到 的 近邻 图 称 为 上 近邻 图 ; 另 一 种 是 指定 距离 
BH e, 距离 小 于 e 的 点 被 认为 是 近邻 点 , 这 样 得 到 的 近邻 图 称 为 e 近邻 图 . 两 
o 例如 若 近邻 范围 指定 得 较 大 , 则 距离 很 远 的 点 可 能 被 误 认为 

近邻 , 这 样 就 出 现 “ 短 路 ”问题 ; 近邻 范围 指定 得 较 小 , 则 图 中 有 些 区 域 可 能 点 
其 他 区 域 不 存在 连接 , 这 样 就 出 现 “ 断 路 ”问题 . 短路 与 断路 都 会 给 后 续 的 最 
短路 径 计 算 造成 误导 . 


10.5.2 局 部 线性 散 入 


与 Tsomap 试图 保持 近邻 样本 之 间 的 距离 不 同 ,局 部 线性 嵌入 (Locally 
Linear Embedding, eu) enna Saul, 2000] 试图 保持 邻 域内 样本 之 
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10.9 高 维 空 间 T PAR A 系 在 低 维 空 间 中 得 以 保持 


间 的 线性 关系 . 如 图 10.9 所 示 ， TEN 的 坐标 能 通过 它 的 邻 域 样本 zj， 
zi zi 的 坐标 通过 线性 组 合 而 重 构 出 来 , 即 


Li = Wij Lj 十 iDK + WL , (10.26) 


LLE 希望 式 (10.26) 的 关系 在 低 维 空间 中 得 以 保持 


LLE 先 为 每 个 样本 zi; 找到 其 近邻 下 标 集合 Qs, 然后 计算 出 基于 Q 中 的 
样本 点 对 m; 进行 线性 重 构 的 系数 wi: | 














a 2 
2101) 102 on 2 |2: >> Li (10.27) 
| t=1 jEQi 7 | 
S Ui: ` Wij = 1, 
JEQi 
AP z 和 zj 均 为 已 知 , 令 Cjr = (x; — 25)" (æ; 一 Tk), Wij 有 闭 式 解 
l 2, CH 
Wij = St (10.28) 
C 
ox, i l 


_LLE 在 低 维 空间 中 保持 w; 不 变 , 于 是 x mac 坐标 2, 可 通过 
-下 式 求解 : 


2 


min, > | 
Z112... 


ed 








2s a Wij 25 || 


jEQ: 








(10.29) 
D y | 


式 (10.27) 与 (10.29) 的 优化 目标 同形 , 唯一 的 区 别 是 式 (10.27) 中 需 确定 的 是 


” “ws, 而 式 (10.29) 中 需 确定 的 是 zx; 对 应 的 低 维 空间 坐标 zi. 
ww ai bbt.com TOOOAOA 
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È Z = (21,22). Zm) ERO, (W) = wy; 
_a_wy"r- W), (10.30) 
则 式 (10.29) 可 重 写 为 
min ix(ZM2Z"), \ (10.31) 
st. ZZ 一 工 . 


式 (10.31) 可 通过 特征 值 分 解 求解 M 最 小 的 中 个 特征 值 对 应 的 特征 向 量 组 成 
的 矩阵 即 为 ZT. 


LLE 的 算法 描述 如 图 10.10 所 示 . 算法 第 4 行 显示 出 : 对 于 不 在 样本 zi; 邻 
域 区 域 的 样本 rj, 无 论 其 如 何 变 化 都 对 zi; 和 zi 没有 任何 影响 ; 这 种 将 变动 限 
” 制 在 局 部 的 思想 在 许多 地 方 都 有 用 . 


输入 : PERE D = {x1, 222)..., Em}; 
| 近邻 参数 k; 
ee sx 间 维 数 d'. 


对 于 ¢ Qi, 令 < Wij = 0; 
: end for 
从 式 (10.30) 得 到 M; 
对 M 进行 特征 值 分 解 ; 
: return M 的 最 小 d/ 个 特征 值 对 应 的 特征 向 量 
输出 : 样本 集 D 在 低 维 空间 的 投影 Z = 人 tea} 


过 

1 

2: | 
3: 从 式 (10 DRA twig, 7 E Qi; 
4 

5 

6: 

T: 

8 


图 10.10 LLE 算法 


| 6 度量 学 习 
1 二条 “二 并 学 习 ， 在 机 器 学 习 中 , 对 高 维 数据 进行 降 维 的 主要 目的 是 希望 找到 一 个 合适 的 低 
O O 维 空间 , 在 此 空间 中 进行 学 习 能 比 原始 空间 性 能 更 好 . 事实 上 , 每 个 空间 对 应 了 
在 样本 属性 上 定义 的 一 个 距离 度量 , 而 寻找 合适 的 空间 , 实质 上 就 是 在 寻找 一 
个 合适 的 距离 度量 . 那么 , 为 何不 直接 尝试 “学习” 出 一 个 合适 的 距离 度量 呢 ? 


这 就 是 度量 学 习 (metric learning) 的 基本 动机 . 
ww ai bbt. com DDNDDDDOD 
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即 欧 氏 距离 的 平方 , 这 
是 为 了 后 面 推导 的 便利 . 


马 氏 距离 以 印度 数学 
家 P. C. Mahalanobis 命名 . 
标准 马 氏 距离 中 M 是 协 
方差 矩阵 的 逆 , PPM = 
D-1, 在 度量 学 习 中 M 被 
赋予 更 大 的 灵活 性 . 


第 10 章 “” 降 维 与 度量 学 


欲 对 距离 度量 进行 学 习 , 必须 有 一 个 便于 学 习 的 距离 度量 表达 形式 . 9.3 节 
给 出 了 很 多 种 距离 度量 的 表达 式 , 但 它们 都 是 “固定 的 ”、 没 有 可 调节 的 参数 ， 
因此 不 能 通过 对 数据 样本 的 学 习 来 加 以 改善 . 为 此 , 我 们 先 来 做 一 个 推广 , 


对 两 个 d 维 样本 zi 和 zj, 它们 之 间 的 平方 欧 氏 距离 可 写 为 
dist?; (x, x) = ||zi — 2;||2 = disti, it idt, 2 +... + disti; a, (10.32) 


其 中 distijk 表示 zi 与 zj 在 第 大 维 上 的 距离 . 若 假 定 不 同属 性 的 重要 性 不 同 ， 
则 可 引入 属性 权重 w, 得 到 
dist2 (£i, £j) = ||æ; 一 zjill2 = wr - st at we: dist?, » +...+ Wa: disti; q | 

= (e-a; Wee), (1089 

其 中 w; > 0, W = diag(w) 是 一 个 对 角 和 矩阵 , (W)ii = wi. 


式 (10.33) 中 的 W 可 通过 学 习 确定 , 但 我 们 还 能 再 往 前 走 一 步 : W 的 非 对 
角 元 素 均 为 零 , 这 意味 着 坐标 轴 是 正 交 的 , 即 属性 之 间 无 关 ; 但 现实 问题 中 往往 
不 是 这 样 , 例如 考虑 西瓜 的 “重量 ”和 “体积 ”这 两 个 属性 , 它们 显然 是 正 相 
SEAN, 其 对 应 的 坐标 轴 不 再 正 交 . 为 此 , 将 式 (10.33) 中 的 W 替换 为 一 个 普通 的 
PEENEM, 于 是 就 得 到 了 马 氏 距离 (Mahalanobis distance) 


dist2 ap (£i, Tj) = (£i — xj) M(z; 一 zj) = æ; 一 vj ; (10.34) 


其 中 M 亦 称 “ 度 量 矩阵 ”, 而 度量 学 习 则 是 对 M 进行 学 习 . 注意 到 为 了 保持 


距离 非 负 且 对 称 ，M 必须 是 ( 半 ) 正 定 对 称 矩 阵 ， 即 必 有 正 交 基 卫 使 得 M 能 


为 M=PPT. 


对 M 进行 学 习 当然 要 设置 一 个 目标 . 假定 我 们 是 希望 提高 近邻 分 类 器 
的 性 能 , 则 可 将 M 直接 嵌入 到 近邻 分 类 器 的 评价 指标 中 去 , 通过 优化 该 性 能 
指标 相应 地 求 得 M. 下 面 我 们 以 近邻 成 分 分 析 (Neighbourhood Component 


Analysis, 简称 N CA) [Goldberger et al., 2005] 为 例 进行 讨论 . 


近邻 分 类 器 在 进行 判别 时 通常 使 用 多 数 投票 法 , 邻 域 中 的 每 个 样本 投 1 票 ， 
邻 域外 的 样本 投 0 票 A 对 于 任意 样本 xj, CX z; 


| 分 类 结果 影响 的 概率 为 





wun bee. con ae A a 


留 一 法 参见 2.2.2 F. 


可 用 随机 梯度 下 降 法 求 
解 [Goldberger et al., 2005]. 
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exp (~ |æ: — æ; llr) 
Pij = oo aa o N 
Li exp (= læ: — alin) 
当 i = 了 时 , pay 最 大 . 显然 ,zj 对 zi 的 影响 随 着 它们 之 间距 离 的 增 大 而 减 小 
若 以 留 一 法 (LOO) 正确 率 的 最 大 化 为 目标 , 则 可 计算 zi 的 留 一 法 正确 率 , 即 
它 被 自身 之 外 的 所 有 样本 正确 分 类 的 概率 为 


(10.35) 


p= S pas (10.36) 
GED; ; l 

其 中 Q; 表示 与 zi 属于 相同 类 别 的 样本 的 下 标 集合 . 于 是 , 整个 样本 集 上 的 留 

一 法 正确 率 为 


m m P . 
Sop => SO Diy - (10.37) 
j=1 i=1 FEN; 


将 式 (10.35) 代 入 (10.37)， 再 考虑 到 M = PPT, 则 NCA 的 优化 目标 为 


m exp (— ||PTa; — PTx,||3 ) 
min 1— 2 > 


Bye ee E (10.38) 
i=1 jEQ; > exp (- [PT a; — PTx;||3 ) 


求解 式 (10.38) 即 可 得 到 最 大 化 近邻 分 类 器 LOO 正确 率 的 距离 度量 矩阵 M. 

实际 上 , 我 们 不 仅 能 把 错误 率 这 样 的 监督 学 习 目标 作为 度量 学 习 的 优化 目 
标 , 还 能 在 度量 学 习 中 引入 领域 知识 . 例如 , 车 已 知 某 些 样 本 相似 、 某 些 样 本 
不 相似 , 则 可 定义 “ 必 连 ”(must-link) 约 束 集 合 M 与 “ 忽 连 ”(cannot-link) 约 
REE C, (xix) € M 表示 mi 与 zj 相似 , (zi zh) € C 表示 xi 与 zk 不 相似 . 
显然 , 我 们 希望 相似 的 样本 之 间距 离 较 小 , 不 相似 的 样本 之 间距 离 较 大 , 于 是 可 
通过 求解 下 面 这 个 凸 优化 问题 获得 适当 的 度量 矩阵 M [Xing et al., 2003]: 


.— g, |2 
M > læ: 一 zj (10.39) 
(æi; æj) EM 
S.t. > læ- erli >1, 
M>0, 


其 中 约束 M > 0 表明 M 必须 是 半 正 定 的 . 式 (10.39) 要 求 在 不 相似 样本 间 的 距 
离 不 小 于 1 的 前 提 使 相 位 样本 闻 的 距离 尽 可 能 小 . 
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不 同 的 度量 学 习 方 法 针对 不 同 目标 获得 “好 ”的 半 正 定 对 称 距离 度量 算 


度量 学 习 自 身 通常 并 不 BE M, # M 是 一 个 低 秩 和 矩阵 , 则 通过 对 M 进行 特征 值 分 解 , 总 能 找到 一 组 正 


要 求学 得 的 M 是 低 秩 的 . 


半 监 督 聚 类 见 13.6 节 . 


ACHE, 其 正 交 基数 目 为 矩阵 M 的 秩 rank(M), 小 于 原 属 性 数 d. 于 是 , 度量 学 习 


学 得 的 结果 可 衍生 出 一 个 降 维 矩阵 P e Raxrank(M), 能 用 于 降 维 之 目的 . 


10.7 阅读 材料 


懒惰 学 习 方 法 主要 有 近邻 学 习 占 、 懒 情 决策 树 (Friedman et al., 1996]; 
朴素 贝 叶 斯 分 类 器 能 以 懒惰 学 习 方式 使 用 , 也 能 以 急切 学 习 方 式 使 用 . 关于 懒 
情 学 习 的 更 多 内 容 可 参阅 [Aha, 1997]. 


主 成 分 分 析 是 一 种 无 监督 的 线 性 降 维 方法 ， 监督 线性 降 维 方法 最 著名 的 
是 线性 判别 分 析 (LDA) [Fisher, 1936], 参见 3.4 节 , 其 核 化 版 本 KLDA [Baudat 
and Anouar, 2000] 参见 6.6 市 . 通过 最 大 化 两 个 变量 集合 之 间 的 相关 性 , 则 可 
得 到 “典型 相关 分 析 ”(Canonical Correlation Analysis, 简称 CCA) [Hotelling, 
1936] 及 其 核 化 版 本 KCCA [Harden et al., 2004], 该 方法 在 多 视图 学 习 (multi- 
view learning) 中 有 广泛 应 用 .在 模式 识别 领域 人 们 发 现 , 直接 对 矩阵 对 
象 (例如 一 幅 图 像 ) 进 行 降 维 操作 会 比 将 其 拉 伸 为 向 量 ( 例 如 把 图 像 逐 行 拼接 
成 一 个 向 量 ) 再 进行 降 维 操作 有 更 好 的 性 能 , 于 是 产生 了 2DPCA [Yang et al., 
2004]. 2DLDA [Ye et al., 2005]. (2D)?PCA [Zhang and Zhou, 2005] 等 方法 ， 


”以 及 基于 张 量 (tensor) 的 方法 [Kolda and Bader, 2009]. 


除了 Isomap 和 LLE, 党 常见 的 流 形 学 习 方法 还 有 拉 普 拉 斯 特征 映射 (Lapl- 
cian Eigenmaps, 简称 LE) [Belkin and Niyogi, 2003]、 局 部 切 空间 对 齐 (Local 
Tangent Space Alignment, 简称 LTSA) [Zhang and Zha, 2004] 等 . 局 部 保持 投 


(Locality Preserving Projections, 简称 LPP) [He and Niyogi, 2004] 是 基于 


LE 的 线性 降 维 方法 . 对 监督 学 习 而 言 , 根据 类 别 信息 扭曲 后 的 低 维 空间 常 比 本 
真 低 维 空间 更 有 利 [Geng et al., 2005]. 值得 注意 的 是 , 流 形 学 习 欲 有 效 进 行 邻 
域 保持 则 需 样 本 密 采样 , 而 这 恰 是 高 维 情形 下 面临 的 重大 障碍 , 因此 流 形 学 习 
方法 在 实践 中 的 降 维 性 能 往往 没有 预期 的 好 ; 但 邻 域 保持 的 想法 对 机 器 学 习 的 
其 他 分 支 产 生 了 重要 影响 , 例如 半 监 督学 习 中 有 著名 的 流 形 假设 、 流 形 正则 化 
[Belkin et al., 2006]. [Yan et al., 2007] 从 图 A EREE E 
25 — 框架 . 

将 必 连 关系 、 勿 连 关系 作为 学 习 任务 优化 目标 的 约束 , 在 半 监 督 聚 类 的 研 
究 中 使 用 得 更 早 [Wagstaff et al., 2001]. 在 度量 学 习 中 , 由 于 abu d i | 
样本 同时 发 生 作用 [Xing et al., l., 2003), A 因此 相应 NAB AS Re 
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法 . 人 们 也 尝试 利用 局 部 约束 (例如 邻 域内 的 三 元 关系 ), 从 而 产生 了 局 部 距离 
度量 学 习 方 法 [Weinberger and Saul, 2009], 甚至 有 一 些 研究 试图 为 每 个 样本 
产生 最 合适 的 距离 度量 [Frome et al., 2007; Zhan et al., 2009]. 在 具体 的 学 习 
与 优化 求解 方面 , 不 同 的 度量 学 习 方法 往往 采用 了 不 同 的 技术 , 例如 [Yang et 
al., 2006] 将 度量 学 习 转 化 为 判别 式 概 率 模型 框架 下 基于 样本 对 的 二 分 类 问题 
求解 ， [Davis et al., 2007] 将 上 度量 学 习 转 化 为 信息 论 框 架 下 的 Bregman 优化 问 
题 , 能 方便 地 进行 在 线 学 习 . 
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reer es 0a 见 p. 89 
的 表 4.5. 


princomp 函数 调用 . 


Yale 人 脸 数据 集 见 
~ http://vision.ucsd.edu/content 
/yale-face-database. 


10.2 


10.3 
10.4 
10.5 
10.6 


10.7 


在 对 高 维 数据 降 维 之 前 应 先进 行 


第 10 章 ” 降 维 与 度量 学 


”编程 实现 近邻 分 类 器 ， 在 西瓜 数据 集 3.0a Sa 与 决 
策 树 分 类 边界 之 异同 . 


令 err、err* 分 别 表示 最 近邻 分 类 器 与 贝 时 斯 最 优 分 类 器 的 期 望 错误 
率 , 试 证 明 
x er 


“中 心 化 ”, 常见 的 是 将 协 方差 矩阵 
XXT 转化 为 XHHITXT, 其 中 五 = 工 - 记 117， 试 析 其 效果 . 


X| 
y= 





err* < err < err* (2 — (10.40) 


在 实践 中 , 协 方差 矩阵 XXT 的 特征 值 分 解 常 由 中 心 化 后 的 样本 矩阵 
X WARMERS, 试 述 其 原因 . 


_ 降 维 中 涉及 的 投影 矩阵 通常 要 求 是 正 交 的 . 试 述 正 交 、 非 正 交 投影 矩 


BEH PEAS 


试 使 用 MATLAB 中 的 PCA 函数 对 Yale 人 脸 数 据 集 进 行 降 维 , 并 观 
察 前 20 个 特征 向 量 所 对 应 的 图 像 . 


试 述 核 化 线性 降 维 与 流 形 学习 之 间 的 联系 及 优 缺 反 . 


kk 近邻 图 和 近邻 图 存在 的 短路 和 断路 问题 会 
设计 一 个 方法 缓解 该 问题 . 


给 Isomap 造成 困扰 , 试 


试 设计 一 个 方法 为 新 样本 找到 LLE 降 维 后 的 低 维 坐标 ， 


试 述 如 何 确保 度量 学 习 产 生 的 距离 能 满足 距离 度量 的 四 条 基本 性 质 . 





ww ai bbt. com TAAWOAgA 


参考 文献 


243 


参考 文献 


Aha, D., ed. (1997). Lazy Learning. Kluwer, Norwell, MA. 


Baudat, G. and F. Anouar. (2000). “Generalized discriminant analysis using a 
kernel approach.” Neural Computation, 12(10):2385-2404. 


Belkin, M. and P. Niyogi. (2003). “Laplacian eigenmaps for dimensionality re- 
duction and data representation.” Neural Computation, 15(6):1373-1396. 
Belkin, M., P. Niyogi, and V. Sindhwani. (2006). “Manifold regularization: A 
geometric framework for learning from labeled and unlabeled examples.” 

Journal of Machine Learning Research, 7:2399—2434. 


Bellman, R. E. (1957). Dynamic Programming. Princeton University Press, 
Princeton, NJ. 


Cover, T. M. and P. E. Hart. (1967). “Nearest neighbor pattern classification.” 
IEEE Transactions on Information Theory, 13(1):21-27. 


Cox, T. F. and M. A. Cox. (2001). Multidimensional Scaling. Chapman & Hal- 
1/ CRC, London, UK. 


Davis, J. V., B. Kulis, P. Jain, S. Sra, and I. S. Dhillon. (2007). “Information- 
theoretic metric learning.” In Proceedings of the 24th International Confer- 
ence on Machine Learning (ICML), 209-216, Corvalis, OR. 

Fisher, R. A. (1936). “The use of multiple measurements in taxonomic prob- 
lems.” Annals of Eugenics, 7(2):179-188. 

Friedman, J. H., R. Kohavi, and Y. Yun. (1996). “Lazy decision trees.” In Pro- 
ceedings of the 13th National Conference on Aritificial Intelligence (AAAT), 
717-724, Portland, OR. 


Frome, A., Y. Singer, and J. Malik. (2007). “Image retrieval and classification 
using local distance functions.” In Advances in Neural Information Process- 
ing Systems 19 (NIPS) (B. Scholkopf, J. C. Platt, and T. Hoffman, eds.), 
417-424, MIT Press, Cambridge, MA. 


Geng, X., D.-C. Zhan, and Z.-H. Zhou. (2005). “Supervised nonlinear dimen- 
sionality reduction for visualization and classification.” IEEE Transactions 
on Systems, Man, and Cybernetics - Part B: Cybernetics, 35(6):1098-1107. 

Goldberger, J., G. E. Hinton, S. T. Roweis, and R. R. Salakhutdinov. (2005). 


“Neighbourhood components analysis.” In Advances in Neural Information 
ww ai bbt. com NN O01 OO 





244 


第 10 章 ” 降 维 与 度量 学 习 


Processing Systems 17 (NIPS) (L. K. Saul, Y. Weiss, and L. Bottou, eds.), 
513-520, MIT Press, Cambridge, MA. | | 

Harden, D. R., S. Szedmak, and J. Shawe-Taylor. (2004). “Canonical correla- 
tion analysis: An overview with application to learning methods.” Neural 
Computation, 16(12):2639-2664. | | 

He, X. and P. Niyogi. (2004). “Locality preserving projections.” In Advances 
in Neural Information Processing Systems 16 (NIPS) (S. Thrun, L. K. Saul, 
and B. Schélkopf, eds.), 153-160, MIT Press, Cambridge, MA. 

Hotelling, H. (1936). “Relations between two sets of variates.” Biometrika, 28 
(3-4):321-377. | | 

Kolda, T. G. and B. W. Bader. (2009). “Tensor decompositions and applica- 
tions.” SIAM Review, 51(3):455-500. 

Roweis, S. T. and L. K. Saul. (2000). “Locally linear embedding.” Science, 290 
(5500):2323-2316. 

Schélkopf, B., A. Smola, and K.-R. Miiller. (1998). “Nonlinear component anal- 
ysis as a kernel eigenvalue problem.” Neural Computation, 10(5):1299-1319. 


Tenenbaum, J. B., V. de Silva, and J. C. Langford. (2000). “A global geomet- 


ric framework for nonlinear dimensionality reduction.” Science, 290(5500): 
2319-2323. | | 

Wagstaff, K., C. Cardie, S. Rogers, and S. Schrédl. (2001). “Constrained 
k-means clustering with background knowledge.” In Proceedings of the 
18th International Conference on Machine Learning (ICML), 577-584, 
Williamstown, MA. _ | | 

Weinberger, K. Q. and L. K. Saul. (2009). “Distance metric learning for large 
margin nearest neighbor classification.” Journal of Machine Learning Re- 
search, 10:207-244. | | | | 

Xing, E. P., A. Y. Ng, M. I. Jordan, and S. Russell. (2003). “Distance metric 
learning, with application to clustering with side-information.” In Advances 
in Neural Information Processing Systems 15 (NIPS) (S. Becker, S. Thrun, 
and K. Obermayer, eds.), 505-512, MIT Press, Cambridge, MA. 

Yan, S., D. Xu, B. Zhang, and H.-J. Zhang. (2007). “Graph embedding and ex- 


tensions: A general framework for dimensionality reduction.” [EEE Trans- 





ww ai bbt. com TAAOAOAA 


参考 文献 


245 


actions on Pattern Analysis and Machine Intelligence, 29(1):40-51. 
Yang, J., D. Zhang, A. F. Frangi, and J.-Y. Yang. (2004). “Two-dimensional 


PCA: A new approach to appearance-based face representation and recog- 
nition.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 
26(1):131-137. | 

Yang, L., R. Jin, R. Sukthankar, and Y. Liu. (2006). “An efficient algorithm 
for local distance metric learning.” In Proceedings of the 21st National Con- 
ference on Artificial Intelligence (AAAI), 543-548, Boston, MA. 


Ye, J., R. Janardan, and Q. Li. (2005). “Two-dimensional linear discriminant 
analysis.” In Advances in Neural Information Processing Systems 17 (NIPS) 
(L. K. Saul, Y. Weiss, and L. Bottou, eds.), 1569-1576, MIT Press, Cam- 
bridge, MA. . 

Zhan, D.-C., Y.-F. Li, and Z.-H. Zhou. (2009). “Learning instance specific 
distances using metric propagation.” In Proceedings of the 26th International 
Conference on Machine Learning (ICML), 1225-1232, Montreal, Canada. 

Zhang, D. and Z.-H. Zhou. (2005). “(2D)*PCA: 2-directional 2-dimensional 
PCA for efficient face representation and recognition.” Neurocomputing, 69 
(1-3):224—231. 

Zhang, Z. and H. Zha. (2004). “Principal manifolds and nonlinear dimension 


reduction via local tangent space alignment.” SIAM Journal on Scientific 
Computing, 26(1):313-338. 





ww ai bbt. com OO OO000 


246 


Galton 是 达尔 文 的 表 弟 ， 
“优生 学 ” RHA. 
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小 故事 : ER ART A RAR + BAR 

主 成 分 分 析 (PCA) 364 Ke EA NEEN, 它 有 许 
多 名 字 , 例如 线性 代数 中 的 散 度 和 矩阵 奇异 值 分解 (SVD)、 
统计 学 中 的 因子 分 析 (factor analysis)、 信 和 号 处 理 中 的 离散 
Karhiinen-Loéve 变换 、 图 像 分 析 中 的 Hotelling 变换 、 文 
本 分 析 中 的 潜在 语义 分 析 (LSA)、 机 械 工程 中 的 本 征 正 交 
分 解 (POD)、 气 象 学 中 的 经 验 直 交 函数 (EOF)、 结 构 动 力学 中 的 经 验 模 分 析 
(EMA)、 心 理 测量 学 中 的 Schmidt-Mirsky 定理 等 . 

卡尔 。 皮 尔 逊 (Karl Pearson, 1857—1936) 在 1901 年 发 明了 PCA. RRB 





是 一 位 罕见 的 百科 全 书 式 的 学 者 , 他 是 统计 学 家 、 应 用 数学 家 、 芹 学 家 、 历 史 


学 家 、 民 俗 学 家 、 宗 教学 家 、 人 类 学 家 、 语 言 学 家 , 还 是 社会 活动 家 、 教 育 改 
革 家 、 作 家 . 1879 年 他 从 剑桥 大 学 国王 学 院 数学 系 毕 业 , 此 后 到 德国 海德 堡 大 
学 、 柏 林 大 学 等 地 游学 , 涉猎 广泛 . 1884 年 他 开始 在 伦敦 大 学 学 院 (University 
College London, 简称 UCL) 担任 应 用 数学 讲 席 教授 , 39 岁 时 成 为 英国 皇家 学 
会 会 士 . 他 在 1892 年 出 版 的 科学 哲学 经 典 名 著 《 科 学 的 规范 》, 为 爱 因 斯 坦 创 
立 相 对 论 提供 了 启发 . 皮尔 逊 对 统计 学 作出 了 极为 重要 的 贡献 , 例如 他 提出 了 
HARM. MRA. KAR. BUS, 并 为 假设 检验 理论 、 统 计 决策 理论 


ARTER, 被 尊 为 “统计 学 之 父 ”， 


皮尔 逊 开展 统计 学 研究 是 因 受到 了 生物 学 家 下 . Galton 和 W. Welton 的 影 
响 , 希望 使 进化 论 能 进行 定量 描述 和 分 析 . 1901 年 他 们 三 人 创立 了 著名 的 统计 
学 期 刊 Biometrika, 皮尔 逊 担任 主编 直至 去 世 . RRR Y Egon 也 是 著名 
统计 学 家 , RAW “BARRE” PH RRM, 他 子 承 父 业 出 任 UCL 
的 统计 学 教授 以 及 Biometrika 主编 , 后 来 担任 了 英国 皇家 统计 学 会 主席 . 
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11.1 子 集 搜索 与 评价 


我 们 能 用 很 多 属性 换 述 一 个 西瓜 , 例如 色泽 、 根 带 、 毅 声 、 纹 理 、 触 感 
等 , 但 有 经 验 的 人 往往 只 需 看 看 根 带 、 听 听 殴 声 就 知道 是 否 好 瓜 . 换言之 , 对 
一 个 学 习 任 务 来 说 , 给 定 属 性 集 , 其 中 有 些 属性 可 能 很 关键 、 很 有 用 , 另 一 些 
属性 则 可 能 没什么 用 . 我 们 将 属性 称 为 “特征 ”(feature), 对 当前 学 习 任 务 有 
用 的 属性 称 为 “相关 特征 ”(relevant feature)、 没 什么 用 的 属性 称 为 “无 关 特 
征 ”(irrelevant feature). 从 给 定 的 特征 集合 中 选择 出 相关 特征 子 集 的 过 程 , 称 
为 “特征 选择 ”(feature selection). | 

特征 选择 是 一 个 重要 的 “数据 预 处 理 ”(data preprocessing) it, 在 现实 
机 器 学 习 任务 中 , 获得 数据 之 后 通常 先进 行 特征 选择 , 此 后 再 训练 学 习 器 . 那 
么 , 为 什么 要 进行 特征 选择 呢 ? 

有 两 个 很 重要 的 原因 : 首先 , 我 们 在 现实 任务 中 经 常会 遇 到 维 数 灾难 问题 ， 
这 是 由 于 属性 过 多 而 造成 的 , 徊 能 从 中 选择 出 重要 的 特征 , 使 得 后 续 学 习 过 程 
仅 需 在 一 部 分 特征 上 构建 模型 , 则 维 数 灾难 问题 会 大 为 减轻 . 从 这 个 意义 上 说 ， 
特征 选择 与 第 10 章 介绍 的 降 维 有 相似 的 动机 ; 事实 上 , 它们 是 处 理 高 维 数据 的 
两 大 主流 技术 . 第 二 个 原因 是 , 去 除 不 相关 特征 往往 会 降低 学 习 任务 的 难度 , 这 
就 像 侦 探 破 案 一 样 , 藻 将 纷繁 复杂 的 因素 抽 丝 剥 草 , 只 留 下 关键 因素 , 则 真相 往 
往 更 易 看 清 . 


需 注 意 的 是 , 特征 选择 过 程 必 须 确 保 不 丢失 重要 特征 , 否则 后 续 学 习 过 程 


会 因为 重要 信息 的 缺失 而 无 法 获得 好 的 性 能 . 给 定数 据 集 , 车 学 习 任务 不 同 , 则 
相关 特征 很 可 能 不 同 , 因此 , 特征 选择 中 所 谓 的 “无 关 特 征 ” 是 指 与 当前 学 习 
任务 无 关 . 有 一 类 特征 称 为 “元 余 特 征 ”(redundant feature), 它们 所 包含 的 信 
恩 能 从 其 他 特征 中 推演 出 来 . 例如 , 考虑 立方 体 对 象 , 大 已 有 特征 “底面 长 ” 
“底面 宽 ”,， 则 “发 面积 ”是 见 余 特征 , 因为 它 能 从 “底面 长 ”与 “底面 宽 ” 
得 到 . 元 余 特 征 在 很 多 时 候 不 起 作用 , 去 除 它们 会 减轻 学 习 过 程 的 负担 . 但 有 
时 宛 余 特征 会 降低 学 习 任 务 的 难度 , 例如 若 学 习 目 标 是 估算 立方 体 的 体积 , 则 
“底面 积 ” 这 个 见 余 特征 的 存在 将 使 得 体积 的 估算 更 容易 ; 更 确切 地 说 , se 


个 匈 余 特征 恰好 对 应 了 完成 学 习 任务 所 需 的 “中 间 概 念 ”, 则 该 见 余 特征 是 有 
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亦 称 子 集 “ 生 成 与 搜 
人 


假设 每 个 属性 及 个 可 
取 值 , MV = ul4l, 这 可 能 
是 一 个 很 大 的 值 , 因此 实 
” 践 中 通常 是 从 子 集 搜索 过 
程 中 前 一 轮 属性 子 集 的 评 
价值 出 发 来 进行 计算 . 


第 11 章 ， 特 征 选择 与 稀疏 学 习 


mh. 为 简化 讨论 ， 本 章 暂 且 假 定数 据 中 个 涉及 宛 余 特征 ， 并 且 假定 初始 的 特征 
集合 包含 了 所 有 的 重要 信息 . 


欲 从 初始 的 特征 集合 中 选取 一 个 包含 了 所 有 重要 信息 的 特征 子 集 , 若 没有 
任何 领域 知识 作为 先 验 假设 , 那 就 只 好 遍历 所 有 可 能 的 子 集 了 ; 然而 这 在 计算 
上 却 是 不 可 行 的 , 因为 这 样 做 会 遭遇 组 合 爆炸 , 特征 个 数 稍 多 就 无 法 进行 . 可 行 
的 做 法 是 产生 一 个 “候选 子 集 ”, 评价 出 它 的 好 坏 , 基于 评价 结果 产生 下 一 个 
候选 子 集 , 再 对 其 进行 评价 , …… 这 个 过 程 持续 进行 下 去 , 直至 无 法 找到 更 好 的 
候选 子 集 为 止 . 显然, 这 里 涉及 两 个 关键 环节 : 如 何 根据 评价 结果 获取 下 一 个 候 
选 特征 子 集 ? 如 何 评价 候选 特征 子 集 的 好 坏 ? 


第 一 个 环节 是 “ 子 集 搜索 ”(subset search) 问 题 . 给 定 特征 集合 {a, 
az.. ad) 我 们 可 将 每 个 特征 看 作 一 个 候选 子 集 , 对 这 d 个 候选 单 特征 子 
集 进 行 评价 , 假定 {a2} 最 优 , 于 是 将 {a} 作为 第 一 轮 的 选 定 集 ; 然后 , 在 上 一 
轮 的 选 定 集中 加 入 一 个 特征 , 构成 包含 两 个 特征 的 候选 子 集 , 假定 在 这 d 一 1 个 
候选 两 特征 子 集中 {a2,a4} BOL, 且 优 于 {a2}, 于 是 将 {a2,a4} 作为 本 轮 的 选 


定 集 ; …… 假 定 在 第 大 十 1 轮 时 , 最 优 的 候选 (k 十 1) 特征 子 集 不 如 上 一 轮 的 选 


ER, 则 停止 生成 候选 子 集 , 并 将 上 一 轮 选 定 的 天 特征 集合 作为 特征 选择 结果 . 
这 样 逐 渐 增 加 相关 特征 的 策略 称 为 “前 向 ”(forward) 搜 索 . 类 似 的 , 若 我 们 从 
完整 的 特征 集合 开始 , 每 次 尝试 去 掉 一 个 无 关 特征 , 这 样 逐 渐 减 少 特征 的 策略 
称 为 “后 向 ”(backward) 搜 索 . 还 可 将 前 向 与 后 向 搜索 结合 起 来 , 每 一 轮 逐 渐 


“增加 选 定 相关 特征 (这 些 特征 在 后 续 轮 中 将 确定 不 会 被 去 除 )、 同 时 减少 无 关 特 


征 , 这 样 的 策略 称 为 “双向 ”(bidirectional) 搜 索 . 


WA, 上 述 策略 都 是 贪心 的 , 因为 它们 仅 考 虑 了 使 本 轮 选 定 集 最 优 , 例如 在 
第 三 轮 假定 选择 as 优 于 as, 于 是 选 定 集 为 {a2, a4, as}, 然而 在 第 四 轮 却 可 能 是 
{a2, a4, a6, ag} 比 所 有 的 {a2, a4, a5, ai} 都 更 优 . 遗憾 的 是 ， 大 不 进行 穷 举 搜 索 ， 
则 这 样 的 问题 无 法 避免 


第 二 个 环节 是 “ 子 集 评价 ”(subset evaluation) 问 题 . 给 定数 据 集 D, 假 
定 DD 中 第 i 类 样本 所 占 的 比例 为 p; (i = 1,2,...,[0)). 为 便于 讨论 , BER 
本 属性 均 为 离散 型 ,对 属性 子 集 A, 假定 根据 其 取 值 将 DART VATE 


{D}, D?,... DV}, 每 个 子 集中 的 样本 在 A 上 取 值 相同 , 于 是 我 们 可 计算 属性 


子 集 4 的 信息 增益 


Gain(A) = Ent(D Ds a DI Ent(D’), (11.1) 
=1 
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11.2 ”过 滤 式 选择 


参见 4.2.1 节 . 


许多 “多 样 性 度量 ”， 

如 不 合 度量 、 相 关系 数 等 ， 
稍 加 调整 即 可 用 于 特征 子 
集 评价 , 参见 8.5.2 $. 
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其 中 信息 精 定 义 为 
n vI 
Ent(D) = — X ` pp logy Pk ， (11.2) 


i=1 


信息 增益 Gain(A) RK, 意味 着 特征 子 集 4 包含 的 有 助 于 分 类 的 信息 越 多 . 于 


”是 , 对 每 个 候选 特征 子 集 , 我 们 可 基于 训练 数据 集 D 来 计算 其 信息 增益 , 以 此 


作为 评价 准则 . 

更 一 般 的 , 特征 子 集 A 实际 上 确定 了 对 数据 集 D 的 一 个 划分 , 每 个 划分 区 
域 对 应 着 4 上 的 一 个 取 值 , 而 样本 标记 信息 Y 则 对 应 着 对 D 的 真实 划分 , 通过 
估算 这 两 个 划分 的 差异 , 就 能 对 4 进行 评价 . 与 Y 对 应 的 划分 的 差异 越 小 , 则 
说 明 A 越 好 . 信息 烂 仅 是 判断 这 个 差异 的 一 种 途径 , 其 他 能 判断 两 个 划分 差异 
的 机 制 都 能 用 于 特征 子 集 评价 . 

将 特征 子 集 搜索 机 制 与 子 集 评价 机 制 相 结 合 , 即 可 得 到 特征 选择 方法 . 例 
te AR Sia RA, 这 显然 与 决策 树 算法 非常 相似 . 事实 上 , 决策 树 
可 用 于 特征 选择 , 树 结 点 的 划分 属性 所 组 成 的 集合 就 是 选择 出 的 特征 子 集 . 其 
他 的 特征 选择 方法 未 必 像 决策 树 特征 选择 这 么 明显 , 但 它们 在 本 质 上 都 是 显 式 
或 隐 式 地 结合 了 某 种 (或 多 种 ) 子 集 搜 索 机 制 和 子 集 评价 机 制 | 

常见 的 特征 选择 方法 大 致 可 分 为 三 类 : 过 滤 陈 (filter)、 包 囊 式 (wrapper) 和 ， 
fk A. xk (embedding). | | 


11.2 过 滤 式 选择 


过 滤 式 方法 先 对 数据 集 进 行 特 征 选 择 , 然后 再 训练 学 习 器 , 特征 选择 过 程 
与 后 续 学 习 器 无 关 . 这 相当 于 先 用 特征 选择 过 程 对 初始 特征 进行 “过 滤 ”, 再 
用 过 滤 后 的 特征 来 训练 模型 . 

Relief (Relevant Features) [Kira and Rendell, 1992] 是 一 种 著名 的 过 小 式 
特征 选择 方法 , 该 方法 设计 了 一 个 “相关 统计 量 ” 来 度量 特征 的 重要 性 . 该 统 
计量 是 一 个 向 量 , 其 每 个 分 量 分 别 对 应 于 一 个 初始 特征 , 而 特征 子 集 的 重要 性 
则 是 由 子 集中 每 个 特征 所 对 应 的 相关 统计 量 分 量 之 和 来 决定 . 于 是 , RARE 
指定 一 个 阐 值 r, 然后 选择 比 r 大 的 相关 统计 量 分 量 所 对 应 的 特征 即 可 ; 也 可 指 
定 欲 选取 的 特征 个 数 , 然后 选择 相关 统计 量 分 量 最 大 的 大 个 特征 . 

GR, Relief 的 关键 是 如 何 确定 相关 统计 量 ， 给 定 训练 集 {(21,y), 
(x2, Y2), ---, (Em Ym}, 对 每 个 示例 xi Relief 先 在 x; 的 同类 样本 中 寻找 


其 最 近邻 zi mn, 称 为 “ 猜 中 近邻 ” (near-hit), 再 从 mi 的 异类 样本 中 寻找 其 最 
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Relief 中 相关 统计 量 的 


计算 已 隐 然 具有 距离 度量 
学 习 的 意味 . 距离 度量 学 


习 参 见 10.6 节 . 


第 11 章 ”特征 选择 与 稀 玻 学 习 


近邻 zi nm, 称 为 “ 猜 错 近邻 ” oa 然后 ， 相关 统计 量 对 应 于 属性 J 的 
分 量 为 
| 67 = S -diff (sl, 21 n)? + dif (2, > (11.3) 
其 中 zi 表示 样本 zu 在 属性 j 上 的 取 值 , dif(z2, of) 取决 于 属性 j 的 类 型 : 车 
属性 j 为 离散 型 , 则 ok = of 时 dif (ei, c) = 0, 否则 为 1; 车 属性 j 为 连续 型 ， 
WW diff (x4, zf) = Jad, — a2), ER oho) 已 规范 化 到 [0,1] 区 间 . | 
从 式 (11.3) 可 看 出 , 若 zi 与 其 猜 中 近邻 £in 在 属性 7 上 的 距离 小 于 z; 与 
其 猜 错 近 邻 zinm 的 距离 , 则 说 明 属 性 j 对 区 分 同类 与 异类 样本 是 有 益 的 , 于 是 


增 大 属性 j 所 对 应 的 统计 量 分 量 ; RZ, Fa, 与 其 猜 中 近邻 tin 在 属性 7 上 的 


距离 大 于 mi 与 其 猜 错 近邻 zi nm 的 距离 , 则 说 明 属性 j 起 负面 作用 , 于 是 减 小 
属性 j 所 对 应 的 统计 量 分 量 . 最 后 , 对 基于 不 同样 本 得 到 的 估计 结果 进行 平均 ， 
就 得 到 各 属性 的 相关 统计 量 分 量 , 分 量 值 越 大 , 则 对 应 属性 的 分 类 能 力 就 越 强 
式 (11.3) 中 的 i 指出 了 用 于 平均 的 样本 下 标 . 实际 上 Relief 只 需 在 数据 集 的 ， 
采样 上 而 不 必 在 整个 数据 集 上 估计 相关 统计 量 [Kira and Rendell, 1992]. 显然 ， 
Relief 的 时 间 开 销 随 采 样 次 数 以 及 原始 特征 数 线性 增长 , 因此 是 一 个 运行 效率 
很 高 的 过 滤 式 特征 选择 算法 . | 
Relief 是 为 二 分 类 问题 设计 的 , 其 扩展 变 体 ReliefF [Kononenko, 1994] 能 
处 理 多 分 类 问题 . 假定 数据 集 D 中 的 样本 来 自 |y| 个 类 别 . 对 示例 zi, HER 
于 第 类 (ke {1,2,...,|y|}, 则 ReliefF 先 在 第 k 类 的 样本 中 寻找 x; 的 最 近 = 
BABI eanh 并 将 其 作为 猜 中 近邻 , 然后 在 第 大 类 之 外 的 每 个 类 中 找到 一 个 x 
的 最 近邻 示例 作为 猜 错 近邻 , 记 为 tinm (1 = 1,2,.…..,|y|; Lk). 于 是 , 相关 
统计 量 对 应 于 属性 ; 的 分 量 为 | | 


= X -diff (si, el n) ?十 > (pi x diff (a rÍ, a) , (11.4) 
a | 3 [Ak | 


其 中 pi 为 第 1 类 样本 在 数据 集 DD 中 所 占 的 比例 


11.3 BRAJER 
与 过 滤 式 特征 选择 不 考虑 后 续 学 习 器 不 同 ， 包 诸 式 特征 选择 直接 把 最 终 将 


要 使 用 的 学 习 器 的 性 能 作为 特征 子 集 的 评价 准则 . 换言之 , 包 襄 式 特征 选择 的 


目的 束 是 为 给 定 学 习 器 选择 最 有 利于 其 性 能 、“ 量 身 定做 ”的 特征 子 集 . 


一 般 而 言 ， AT ERR ETE 2s EERE AT AR E SE I EIT AH, 因此 
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11.3 BRRAR 


拉 斯 维 加 斯 方法 和 蒙特 
卡 罗 方 法 是 两 个 以 著名 赌 
城 名 字 命 名 的 随机 化 方法 . 
两 者 的 主要 区 别 是 : HA 
| 
解 ， 或 者 不 给 出 解 ， ne 
特 卡 罗 方 法 一 定 会 给 出 解 ， 
虽然 给 出 的 解 未 必 满 足 要 
求 ; 若 无 时 间 限 制 , 则 两 者 
都 能 给 出 满足 要 求 的 解 . 


初始 化 ， 


在 特征 子 集 A! 上 通过 
交叉 验证 估计 学 习 器 误差 . 


若 连 续 工 轮 未 更 新 则 算 
法 停止 . 
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从 最 终 学 习 器 性 能 来 看 , 包 于 式 特征 选择 比 过 滤 式 特征 选择 更 好 , 但 另 一 方面 ， 
由 于 在 特征 选择 过 程 中 需 多 次 训练 学 习 器 , 因此 包 硅 式 特征 选择 的 计算 开销 通 
常 比 过 滤 式 特征 选择 大 得 多 . 

LVW (Las Vegas Wrapper) [Liu and Setiono, 1996] 是 一 个 典型 的 包 囊 式 
特征 选择 方法 . 它 在 拉 斯 维 加 斯 方法 (Las Vegas method) 框 架 下 使 用 随机 策略 
来 进行 子 集 搜索 , 并 以 最 终 分 类 器 的 误差 为 特征 子 集 评价 准则 . 算法 描述 如 
图 11.1 所 示 . 


输入 : BER D; 
特征 集 A; 
学 习 算 法 L; 
停止 条 件 控制 参数 全. 
过 程 : | 
bay Jane. © 
2: d= |A]; 
3: A* = Á; 
4: p=; 
5: while t < T do 
6: mar i A’; 
7: = |A’|; l 
8: Pa CrossValidation(£(D^)); 
9: if (E'< E)v((E' = E) ^ (dďd' < d)) then 
10: t= 0; 2 
11: = EH: 
12: =a: 
13: A* =A’ 
14: else 
15: t=t+1 
16: end if 


17: end while 
输出 : 特征 子 集 4* . 


图 11.1 LVW 算法 描述 


图 11.1 算法 第 8 行 是 通过 在 数据 集 D 上 , 使 用 交叉 验证 法 来 估计 学 习 器 


总 的 误差 , 注意 这 个 误差 是 在 仅 考虑 特征 子 集 A! 时 得 到 的 , 即 特征 子 集 A! 上 


的 误差 , 若 它 比 当前 特征 子 集 4 上 的 误差 更 小 , 或 误差 相当 但 A! 中 包含 的 特征 
数 更 少 , 则 将 A 保留 下 来 . | 

需 注 意 的 是 , 由 于 LVW 算法 中 特征 子 集 搜索 采用 了 随机 策略 , 而 每 次 特征 
子 集 评价 都 需 训练 学 习 器 , 计算 开销 很 大 , 因此 算法 设置 了 停止 条 件 控 制 参数 
T. 然而 , 整个 LVW 算法 是 基于 拉 斯 维 加 斯 方法 框架 , 若 初始 特征 数 很 多 ( 即 


|4| 很 大 )、 工 设置 较 大 , 则 算法 可 能 运行 很 长 时 间 都 达 不 到 停止 条 件 . 换言之 ， 
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正则 化 参见 6.4 节 . 


岭 回归 最 初 由 A. 
Tikhonov 在 1943 年 发 表 
于 《苏联 科学 院 院 刊 》， 
因此 亦 称 “Tikhonov © 
归 ”, m Lo 正则 化 亦 称 

“Tikhonov 正则 化 ”. 


直译 为 “最 小 绝对 收缩 
ART” | HTB 
口 ， 因此 一 般 直接 称 LAS- 
SO. 


事实 上 , 对 w 施加 “ 稀 
RAR” (PÆ w 的 非 
零 分 量 尽 可 能 少 ) 最 自然 
的 是 使 用 Lo 范 数 ， 但 Lo 
范 数 不 连续 , 难以 优化 求 
解 , 因此 常 使 用 Li 范 数 来 
近似 . 


第 11 章 特征 选择 与 稀 琉 学 习 


车 有 运行 时 间 限 制 , 则 有 可 能 给 不 出 解 


11.4 同 入 式 选 择 与 Li 正则 化 


在 过 滤 式 和 包 囊 式 特征 选择 方法 中 , 特征 选择 过 程 与 学 习 器 训练 过 程 有 明 
显 的 分 别 ; 与 此 不 同 , 嵌入 式 特征 选择 是 将 特征 选择 过 程 与 学 习 器 训练 过 程 融 


为 一 体 , 两 者 在 同一 个 优化 ee 即 在 学 习 器 训练 过 程 中 目 动 地 进行 了 


特征 选择 . 
给 定数 据 集 D = {(z1， y), (£2, Y2),--+)(@m,Ym)}, HP x ER! y ER. R 
们 考虑 最 简单 的 线性 回归 模型 ， 平方 误差 为 损失 函数 ， 则 优化 目标 为 
min >》 (人 一 Ts) (11.5) 
i=l 


当 样 本 特征 很 多 , 而 样本 数 相对 较 少 时 , 式 (11.5) 很 容易 陷入 过 拟 合 . 为 了 
缓解 过 拟 合 问题 , 可 对 式 (11.5) 引入 正则 化 项 . 车 使 用 Lo 范 数 正 则 化 , 则 有 


mis i — wl x;)? + Alo 
i=l 
其 中 正则 化 参数 入 > 0. 式 (11. 6) 称 为 “ 岭 回 归 ” (ridge regression) [Tikhonov | 
and Arsenin, 1977], 通 过 引入 Le 范 数 正则 化 ， 确 能 显 车 降低 过 拟 合 的 风险 . 
那么 , 能 否 将 正则 化 项 中 的 La 范 数 替换 为 Lp 范 数 呢 ? 答案 是 肯定 的 . 若 
&p=1, BRA Li 范 数 , WA 


(11.6) 


m 


min X (ui — wi xi)? + Mwlli . 
| 2 二 1 


(11.7) 


其 中 正则 化 参数 入 > 0. 式 (11.7) 称 为 LASSO (Least Absolute Shrinkage and 
Selection Operator) [Tibshirani, 1996]). 


Ly UR Le 范 数 正则 化 都 有 助 于 降低 过 拟 合 风险 , 但 前 者 还 会 带 来 一 个 
额外 的 好 处 : 它 比 后 者 更 易于 获得 “Bi” (sparse) fe, BN 它 求 得 的 w 会 有 更 
少 的 非 零 分 量 . 

为 了 理解 这 一 点 ， 我 们 来 看 一 个 直观 的 例子 : 假定 z 仪 有 两 个 属性 , 于 是 
无 论 式 (11.6) 还 是 (11.7) 解 出 的 w 都 只 有 两 个 分 量 , 即 wi, wo, 我 们 将 其 作为 两 


个 坐标 轴 , 然后 在 图 中 绘制 出 式 (11.6) 与 (11.7) 的 第 一 项 的 “等 值 线 ”， 即 在 
ww'ai bbt. com NOOOO0 0 
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即 选 择 出 对 应 于 忆 之 非 


零 分 量 的 特征 . 





图 11.2 Ly EMG Lo 正则 化 更 易于 得 到 稀 玖 解 


(wi, we) 空间 中 平方 误差 项 取 值 相同 的 点 的 连 线 , 再 分 别 绘制 出 Ly Weak Lo 
范 数 的 等 值 线 , 即 在 (w, w) 空间 中 L 范 数 取 值 相同 的 点 的 连 线 , 以 及 Lo 范 
数 取 值 相同 的 点 的 连 线 , 如 图 11.2 所 示 . 式 (11.6) 与 (11.7) 的 解 要 在 平方 误差 项 
与 正则 化 项 之 则 折 中 , 即 出 现在 图 中 平方 误工 项 等 值 线 与 正则 化 项 等 值 线 相交 
Xb. 由 图 11.2 可 看 出 , 采用 Ly 范 数 时 平方 误差 项 等 值 线 与 正则 化 项 等 值 线 的 
交点 弟 出 现在 化 标 轴 上 , 即 wi 或 ws 为 0, 而 在 采用 Lo 范 数 时 , PAARA E 
出 现在 某 个 象限 中 , 即 wi 或 ws 均 非 0; RBZ, 采用 Li 范 数 比 Lo 范 数 更 易于 
fF EIFE AE. 
注意 到 w REMEE RENAR d 个 特征 中 仅 有 对 应 着 w 的 非 零 分 量 
的 特征 才 会 出 现在 最 终 模 型 中 , 于 是 , 求解 Li 范 数 正则 化 的 结果 是 得 到 了 仅 采 
用 一 部 分 初始 特征 的 模型 ; 换言之 , BT Ly 正则 化 的 学 习 方 法 就 是 一 种 般 入 式 
特征 选择 方法 , 其 特征 选择 过 程 与 学 习 器 训练 过 程 融 为 一 体 , 同时 完成 . 
Ly 正则 化 问题 的 求解 可 使 用 近 端 梯度 下 降 (Proximal Gradient Descent, 
fP PGD) [Boyd and Vandenberghe, 2004]. 具体 来 说 , S V 表示 微分 算 子 , 对 
i 化 目标 
min f(a) + Mlzlli ， (11.8) 


若 f(x) WS, AVS 满足 L-Lipschitz 条 件 , 即 存 在 常数 L > 0 使 得 


[VZ -Vol < Lle -zl (ve, , (11.9) 
OOO 
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” 则 在 mk 附近 可 将 f(z) 通过 二 阶 泰勒 展 式 近似 为 


ja) = flan) + (Vf (een), — x) + Fle — ae 


bo 


+ const, ` (11.10) 








2 一 (= p IVF) 








N 


其 中 const 是 与 a 无 关 的 常数 , (.,.) 表示 内 积 . 显然 , 式 (11.10) 的 最 小 值 在 如 下 
Tk+1 获得 : | | 


1 
Tk+1 = Tk — FV F(E) (11.11) 


于 是 , ALR PRAT f(z) 进行 最 小 化 , 则 每 一 步 梯度 下 降 迭 代 实 际 
上 等 价 于 最 小 化 二 次 函数 f(x). 将 这 个 思想 推广 到 式 (11.8), 则 能 类 似 地 得 到 
HE DIRT A 


| … y 
Tk+1 = arg min > 
T 


| f 
2 一 (ax — EVA ) | 十 入 zl ， (11.12) 








即 在 每 一 步 对 f(a) 进行 梯度 下 降 迭 代 的 同时 考虑 Ly 范 数 最 小 化 . 
对 于 式 (11.12), 可 先 计 算 z = zk — TVS (ee), 然后 求解 


L L 
Tk+1 = arg min 5 lle — 2||2 + MIzlli . (11.13) 
£ | 


A zi 表示 zx 的 第 i 个 分 量 ， 将 式 (11. 13) 按 分 量 展开 可 看 出 ， 其 中 不 存在 zx igl 
i A j) 这 样 的 项 , 即 æ Mana HA, 于 是 式 (11. 13) 有 团 式 解 


z — A/L; NL <2 
nee ane ISAE; -= (11.14) 
Z+A/L, Ż<—A/L, 


EP of, 5 ot DHE ony 与 z 的 第 i 个 分 量 . 因此 , 通过 PGD 能 使 LASSO 
和 其 他 基于 Ly 范 数 最 小 化 的 方法 得 以 快速 求解 ， / 


11.5 nRT FAZY 


不 妨 把 数据 集 D 考虑 成 一 个 矩阵 , KETAT MEK, 每 列 对 应 于 一 
个 特征 . 特征 选择 所 考虑 的 问题 是 特征 具有 “稀疏 性 ”, 即 矩阵 中 的 许多 列 与 


当前 学 习 任务 无 关 , 通过 特征 选择 去 除 这 些 列 , 则 学 习 器 训练 过 程 仅 需 在 较 小 
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模型 涉及 的 输入 因素 减 
少 了 , 模型 所 建立 的 “ 输 
入 -输出 ”关系 会 更 清晰 . 
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的 矩阵 上 进行 , 学 习 任 务 的 难度 可 能 有 所 降低 , 涉及 的 计算 和 存储 开销 会 减少 ， 
学 得 模型 的 可 解释 性 也 会 提高 . | 3 | 

现在 我 们 来 考虑 另 一 种 稀疏 性 : D 所 对 应 的 矩阵 中 存在 很 多 零 元 素 , 但 这 


些 零 元 素 并 不 是 以 整 列 、 整 行 形式 存在 的 . 在 不 少 现实 应 用 中 我 们 会 遇 到 这 样 


这 里 为 了 用 汉语 来 举例 
说 明 , 我 们 回避 了 分 词 问 
题 , 仅 谈论 汉字 . 


参见 6.3 节 和 12.4 节 . 


字典 亦 称 “ 码 书 ” 
(codebook). 


字典 学 习 亦 称 “ 码 书 学 
习 ” (codebook learning). 


的 情形 , 例如 在 文档 分 类 任务 中 , 通常 将 每 个 文档 看 作 一 个 样本 , 每 个 字 ( 词 ) 作 
为 一 个 特征 , 字 ( 词 ) 在 文档 中 出 现 的 频率 或 次 数 作为 特征 的 取 值 ; 换言之 , D 
所 对 应 的 矩阵 的 每 行 是 一 个 文档 , 每 列 是 一 个 字 ( 词 ), 行 、 列 交汇 处 就 是 某 
字 ( 词 ) 在 某 文档 中 出 现 的 频率 或 次 数 . 那么 , 这 个 矩阵 有 多 少 列 昵 ? 以 汉语 为 
例 , 《康熙 字典 》 中 有 47035 个 汉字 , 这 意味 着 该 矩阵 可 有 4 万 多 列 , 即便 仅 考 
虑 《现代 汉语 常用 字 表 》 中 的 汉字 , 该 矩阵 也 有 3500 列 . 然而 , 给 定 一 个 文档 
相当 多 的 字 是 不 出 现在 这 个 文档 中 的 , 于 是 矩阵 的 每 一 行 都 有 大 量 的 零 元 素 ; 
对 不 同 的 文档 , 零 元 素 出 现 的 列 往往 很 不 相同 . 

” 当 样 本 具有 这 样 的 稀疏 表达 形式 时 , 对 学 习 任 务 来 说 会 有 不 少 好 处 , 例如 
线性 支持 向 量 机 之 所 以 能 在 文本 数据 上 有 很 好 的 性 能 , 恰 是 由 于 文本 数据 在 使 
用 上 述 的 字 频 表示 后 具有 高 度 的 稀 疏 性 , 使 大 多 数 问题 变 得 线性 可 分 . 同时 , 稀 
疏 样 本 并 不 会 造成 存储 上 的 巨大 负担 , 因为 稀疏 矩阵 已 有 很 多 高 效 的 存储 方法 . 

那么 , 若 给 定数 据 集 D 是 稠密 的 , MSE RAE, 能 否 将 其 转化 为 
“稀疏 表示 ”(sparse representation) 形式 , 从 而 享有 稀疏 性 所 带 来 的 好 处 呢 ? 
需 注意 的 是 , 我 们 所 希望 的 稀疏 表示 是 “恰当 稀疏 ”, 而 不 是 “过 度 稀疏 ”. 仍 
以 汉语 文档 为 例 , 基于 《现代 汉语 常用 字 表 》 得 到 的 可 能 是 恰当 稀疏 , 即 其 稀 
疏 性 足以 让 学 习 任 务 变 得 简单 可 行 ; TE CRBS) U RE EP, 
与 前 者 相 比 , 也 许 并 未 给 学 习 任务 带 来 更 多 的 好 处 . 

显然 , 在 一 般 的 学 习 任 务 中 (例如 图 像 分 类 ) 并 没有 《现代 汉语 常用 字 表 》 
可 用 , 我 们 需 学 习 出 这 样 一 个 “字典 ”. 为 普通 稠密 表达 的 样本 找到 合适 的 
字典 , 将 样本 转化 为 合适 的 稀疏 表示 形式 ,从 而 使 学 习 任 务 得 以 简化 , 模型 
复杂 度 得 以 降低 , 通常 称 为 “字典 学 习 ”(dictionary learning), PR “ARA. 
#3” (sparse coding). 这 两 个 称谓 稍 有 差别 , “字典 学 习 ” 更 侧重 于 学 得 字典 的 
过 程 , 而 “ 稀 朴 编码 ” 则 更 侧重 于 对 样本 进行 稀 朴 表达 的 过 程 . 由 于 两 者 通常 
是 在 同一 个 优化 求解 过 程 中 完成 的 , 因此 下 面 我 们 不 做 进一步 区 分 , 笼统 地 称 
为 字典 学 习 . | \ | 

给 定数 据 集 {21 22.. 2m}, 字典 学 习 最 简单 的 形式 为 

min > | læ: — Ball? + 和 > llalla ， (11.15) 
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其 中 Be Rdx* 为 字典 和 矩阵, 称 为 字典 的 词汇 量 , 通常 由 用 户 指定 , a, < R* 则 
是 样本 zi; e Rd 的 稀疏 表示 . 显然 , 式 (11.15) 的 第 一 项 是 希望 由 ov; 能 很 好 地 重 
构 zw;, 第 二 项 则 是 希望 w; REM. | 

与 LASSO 相 比 , 式 (11.15) 显 然 麻 烦 得 多 , 因为 除了 类 似 于 式 (11.7) 中 必 的 
oi, 还 需 学 习 字典 矩阵 B. 不 过 , LASSO 的 启发 , 我 们 可 采用 变量 交替 优化 
的 策略 来 求解 式 (11.15)， 

首先 在 第 一 步 , 我 们 固定 住 字典 B, 若 将 式 (11.15) 按 分 量 展开 , 可 看 出 其 中 
不 涉及 ota? (u # v) 这 样 的 交叉 项 , 于 是 可 参照 LASSO 的 解法 求解 下 式 , 从 
而 为 每 个 样本 zi 找到 相应 的 ai: 


min |æ; — Ba,||2 十 和 lasll (11.16) 
在 第 二 步 , 我 们 固定 住 a; 来 更 新 字典 B, 此 时 可 将 式 (11.15) 写 为 
min ||X 一 BA||%, (11.17) 


其 中 X= (%1,22,...,L2m) € Em A = (Q1, 02,..., Qm) € Ron | |F 是 


Ae RE AY Frobenius 范 数 . 式 (11.17) 有 多 种 求解 方法 , 常用 的 有 基于 逐 列 更 新 集 


_ BRAY KSVD [Aharon et al., 2006]. $ b; 表示 字典 矩阵 也 的 第 i Fl, a 表示 稀 


WIERE A 的 第 i 行 , 式 (11.17) 可 重 写 为 


























| 2 
E 
in |X — BA||% = min |X — > bja 
min | l? = min |X — $ bjo || 
j=1 F 
2 
= mi X— VS bial | — ba’ 
a | poe a 
jFi F 
; ; |12 
= min |E; — bia ||; (11.18) 


在 更 新 字典 的 第 i 列 时 , 其 他 各 列 都 是 固定 的 , 因此 E; = 并 ;ji bya 是 固定 的 ， 


于 是 最 小 化 式 (11.18) 原 则 上 只 需 对 E; 进行 奇异 值 分 解 以 取得 最 大 奇异 值 所 对 
应 的 正 交 向 量 . 然而 , 直接 对 E 进行 奇异 值 分 解 会 同时 修改 b; M at, 从 而 可 


能 破坏 A 的 稀疏 性 . 为 避免 发 生 这 种 情况 , KSVD 对 E; 和 of 进行 专门 处 理 : 


oz 仅 保留 非 零 元 素 , E; 则 仅 保留 b; 与 at 的 非 零 元 素 的 乘积 项 ， 然后 再 进行 奇 


异 值 分 解 , 这 样 就 保持 了 第 一 步 所 得 到 的 稀疏 性 . 
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11.6 ”压缩 感知 


奈 奎 斯 特 采样 定理 提供 
了 信号 恢复 的 充分 条 件 而 
非 必要 条 件 . 


亦 称 compressive sens- 
ing. 


y 亦 称 “测量 值 ”， 
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初始 化 字典 矩阵 B 之 后 反复 迭代 上 述 两 步 , 最 终 即 可 求 得 字典 B 和 样本 


”zi WARR a. 在 上 述 字 典 学 习 过 程 中 , 用 户 能 通过 设置 词汇 量 的 大 小 来 


控制 字典 的 规模 , 从 而 影 啊 到 稀 芷 程度 . 


11.6 压缩 感知 


在 现实 任务 中 , 我 们 常 希望 根据 部 分 信息 来 恢复 全 部 信息 . 例如 在 数据 通 
讯 中 要 将 模拟 信号 转换 为 数字 信号, 根据 奈奈 斯 特 (Nyquist) 采样 定理 , 令 采 
样 频率 达到 模拟 信号 最 高 频率 的 两 倍 , 则 采样 后 的 数字 信号 就 保留 了 模拟 信号 
的 全 部 信息 ; 换言之 , 由 此 获得 的 数字 信号 能 精确 重 构 原 模拟 信号 . 然而 , 为 了 
便于 传输 、 存 储 , 在 实践 中 人 们 通常 对 采样 的 数字 信号 进行 压缩 , 这 有 可 能 损 
失 一 些 信息 , 而 在 信号 传输 过 程 中 , 由 于 信道 出 现 丢 包 等 问题 , 又 可 能 损失 部 
分 信息 . 那么 , 接收 方 基于 收 到 的 信号 , 能 否 精确 地 重 构 出 原 信 号 呢 ? 压缩 感 
知 (compressed sensing) [Donoho, 2006; Candes et al., 2006] 为 解决 此 类 问题 提 
供 了 新 的 思路 . 


假定 有 长 度 为 m 的 离散 信和 号 ac, 不 妨 假定 我 们 以 远 小 于 条码 斯 特 采 样 定理 


要 求 的 采样 率 进行 采样 , 得 到 长 度 为 n 的 采样 后 信号 y, nm, Bll 


y= BY, (11.19) 


其 中 更 e 了 "xm 是 对 信号 c 的 测量 矩阵 , 它 确 定 了 以 什么 频率 进行 采样 以 及 如 
何 将 采样 样本 组 成 采样 后 的 信号 . | 

在 已 知 离散 信号 z 和 测量 矩阵 更 时 要 得 到 测量 值 y 很 容易 , 然而 , 若 将 测 
量 值 和 测量 矩阵 传输 出 去 , 接收 方 能 还 原 出 原始 信号 e 吗 ? 

一 般 来 说 , 答案 是 “No”, 这 是 由 于 n < m, 因此 y, x, 再 组 成 的 
式 (11.19) 是 一 个 欠 定 方程 , 无 法 轻易 求 出 数值 解 . 

现在 不 妨 假 设 存 在 某 个 线性 变换 更 e RM 使 得 x 可 表示 为 Ws, Fy 
可 表示 为 | | 

y= @Us=As, © (11.20) 


其 中 A = OW ER”. 于 是 , THR y 恢复 出 s, 则 可 通过 x = Us 来 恢复 
出 信号 x. 
粗 看 起 来 式 (11.20) 没 有 解决 任何 问题 , 因为 式 (11.20) 中 恢复 信号 s 这 个 逆 


问题 仍 是 欠 定 的 . 然而 有 趣 的 是 , As RAM, 则 这 个 问题 竟 能 很 好 地 得 
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以 解决 ! SSC EL RE Ee CAR A SR Oh EER (11.20) 4 Y 


RARE, 而 A 的 作用 则 类 似 于 字典 , REM ERA AED. 


事实 上 , 在 很 多 应 用 中 均 可 获得 具有 稀疏 性 的 s, 例如 图 像 或 声音 的 数字 信 
号 通常 在 时 域 上 不 具有 稀疏 性 , 但 经 过 传 里 叶 变 换 、 余 弦 变 换 、 小 波 变 换 等 处 
理 后 却 会 转化 为 频 域 上 的 稀 琉 信号 

显然 , 与 特征 选择 、 稀 疏 表 示 不 同 , 压缩 感知 关注 的 是 如 何 利用 信号 本 血 


所 具有 的 稀疏 性 , 从 部 分 观测 样本 中 恢复 原 信号 . 通常 认为 , 压缩 感知 分 为 “ 感 
知 测量 ”和 “ 重 构 恢复 ”这 两 个 阶段 . “感知 测量 ”关注 如 何 对 原始 信号 进行 


处理 以 获得 稀 朴 样本 表示 , 这 方面 的 内 容 涉及 傅 里 时 变换 、 小 波 变换 以 及 11.5 
节 介绍 的 字典 学 习 、 稀 疏 编码 等 , 不 少 技术 在 压缩 感知 提出 之 前 就 已 在 信号 处 


理 等 领域 有 很 多 研究 ; “ 重 构 恢复 ”关注 的 是 如 何 基于 稀 朴 性 从 少量 观测 中 恢 
复原 信号 , KARAM, 当 我 们 痰 到 压缩 感知 时 , 通常 是 指 该 部 分 . 


压缩 感知 的 相关 理论 比较 复杂 , 下 面 仅 简 要 介绍 一 下 “限定 等 距 性 ” 
(Restricted Isometry Property, 简称 RIP) [Candés, 2008]. 


对 大 小 为 n x m (n&m) WFR A, 知人 存在 常数 ore (0, 1) 使 得 对 于 任意 
Pg aaa cee : 


ʻi — 6x)llsll2 < lAxsll2 < (1+ 6x)llsll2 ， (11.21) 


则 称 A 满足 天 限定 等 距 性 (k-RIP). 此 时 可 通过 下 面 的 优化 问题 近乎 完美 地 从 


y 中 恢复 出 稀疏 信号 s, 进而 恢复 出 zx: 


min lel . (11.22) - 
o st Y= As. 
然而 , 式 (11.22) 涉 及 Lo 范 数 最 小 化 , 这 是 个 NP 难 问题 . 值得 庆幸 的 是 , Li 
范 数 最 小 化 在 一 定 条 件 下 与 Lo 范 数 最 小 化 问题 共 解 [Candes et al., 2006], 于 
是 实际 上 只 需 关 注 
min |lsl ; (11.23) 


st. y=As. 


这 样 ， 压缩 感知 问题 就 可 通过 Ly YOR A A 例如 式 (11. 23) AA 
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11.6 ”压缩 感知 


这 是 一 个 典型 的 “协同 


过 滤 ”(collaborative filter- 


ing) 任务 . 


亦 称 “ 低 秩 和 矩阵 恢复 ”. 
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LASSO 的 等 价 形式 再 通过 近 端 梯度 下 降 法 求解 , 即使 用 “ 基 寻 踪 去 品 ”(Basis 
Pursuit De-Noising) [Chen et al., 1998]. 


基于 部 分 信息 来 恢复 全 部 信息 的 技术 在 许多 现实 任务 中 有 重要 应 用 . 例 
如 网 上 书店 通过 收集 读者 在 网 上 对 书 的 评价 , 可 根据 读者 的 读书 偏好 来 进行 新 
书 推荐 , 从 而 达到 定向 广告 投放 的 效果 . 显然 , 没有 哪 位 读者 读 过 所 有 的 书 , 也 
没有 哪 本 书 被 所 有 读者 读 过 , 因此 , 网 上 书店 所 搜集 到 的 仅 有 部 分 信息 . 例如 
表 11.1 给 出 了 四 位 读者 的 网 上 评价 信息 , 这 里 评价 信息 经 过 处 理 , 形成 了 “ 喜 
好 程度 ”评分 (5 分 最 高 ). 由 于 读者 仅 对 读 过 的 书 给 出 评价 , 因此 表 中 出 现 了 


很 多 未 知 项 “?”. 


表 11.1 P 
《 笑 傲 江湖 》 《万 历 十 五 年 》 AMA (ZEBA) 《人 类 的 故事 》 


赵 大 5 ? ? goi 2 
钱 二 a. 5 3 5 
孙 三 5 3 ? 2 
李 四 3 ? 5 4 ? 


那么 , 能 否 将 表 11.1 中 通过 读者 评价 得 到 的 数据 当 作 部 分 信号 ， 基于 压缩 


感知 的 思想 恢复 出 完整 信号 呢 ? 


我 们 知道 , 能 通过 压缩 感知 技术 恢复 欠 采 样 信号 的 前 提 条 件 之 一 是 信号 
AMR. 读书 喜好 数据 是 否 存在 稀疏 表示 了 呢 ? 答案 是 肯定 的 . 一 般 情形 
F, 读者 对 书籍 的 评价 取决 于 题材 、 作 者 、 装 帧 等 多 种 因素 , 为 简化 讨论 , 假定 
K 11.1 中 的 读者 喜好 评分 仅 与 题材 有 关 . (RLW M (SEEDA) ÆR 
侠 小 说 ， 《万 历 十 五 年 》 和 《人 类 的 故事 》 是 历史 读物 ， 《人间 词话 》 属 于 诗 
词 文学 . 一 般 来 说 , 相似 题材 的 书籍 会 有 相似 的 读者 , 若 能 将 书籍 按 题材 归 类 ， 
则 题材 总 数 必然 远 远 少 于 书籍 总 数 , 因此 从 题材 的 角度 来 看 , 表 11.1 中 反映 出 


的 信号 应 该 是 稀 玖 的 . 于 是 , 应 能 通过 类 似 压缩 感知 的 思想 加 以 处 理 . 


| 矩阵 补 全 (matrix completion) 技术 or and Recht, 2009] 可 用 于 解决 
这 个 问题 , 其 形式 为 


min rank(X) - (11.24) 


s.t. (X)ij = (Adis (i, j) ER, 


其 中 , X 和 rank(X) 表示 矩阵 X 的 秩 ; A 是 如 表 11.1 的 





核 范 数 亦 称 “ta TREK” 


(trace norm). 


SDP 参见 附录 B.3. 
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”读者 评分 矩阵 这 样 的 已 观测 信号 ; 9 是 A 中 非 “?” 元 素 (A)ij 的 下 标 (i 9) 的 


集合 . 式 (11.24) 的 约束 项 明确 指出 ， 恢复 出 E (X)i; 应 当 与 已 观测 到 的 


”对 应 元 素 相 同 . 


与 式 (11.22) 相 似 式 (11.24) 也 是 一 个 NP 难 问题 . 注意 到 rank(X) 在 集合 
{X e R™X7 : || X|2 <1} 上 的 凸 包 是 义 的 “ 核 范 数 ”(nuclear norm): 


min{m,n} | 
JX = 5 a), (11.25) 
j=l | 
其 中 o,(X) 表示 X 的 奇异 值 , 即 矩 阵 的 核 范 数 为 矩阵 的 奇异 值 之 和 , 于 是 可 通 
过 最 小 化 矩阵 核 范 数 来 近似 求解 式 (11.24), 即 | | 


min |X| (11.26) 


s.t. (X)ij = (Aij, (i j) EQ. 


式 (11.26) 是 一 个 凸 优化 问题 , 可 通过 半 正 定 规划 (Semi-Definite Programming, 
简称 SDP) 求解 . 理论 研究 表明 , 在 满足 一 定 条 件 时 ， E A 的 秩 为 7,n «m, 则 
只 党 观 察 到 O(mr log? m) 个 元 素 就 能 完美 恢复 出 A [Recht, 2011]. 


11.7 阅读 材料 


特征 选择 是 机 器 学 习 中 研究 TIT j 领域 之 一 , 早期 研究 主要 是 按 特 
征 子 集 “ 生 成 与 搜索 -评价 ”过 程 进行 . 在 子 集 生成 与 搜索 方面 引入 了 很 多 
人 工 智 能 搜索 技术 , 如 分 文 限 界 法 [Narendra and Fukunaga, 1977]、 浮 动 搜索 
法 [Pudil et al., 1994] 等 ; 在 子 集 评价 方面 则 采用 了 很 多 源 于 信息 论 的 准则 ， 
ita SA. AIC (Akaike Information Criterion) [Akaike, 1974] 等 . [Blum and 
Langley, 1997] 对 子 集 评价 准则 进行 了 讨论 , [Forman, 2003] 则 进行 了 很 多 实验 
比较 | o 
早期 特征 选择 方法 主要 是 过 滤 式 的 , AERD HMA [Kohavi and 
John, 1997], RAD AEB EEM [Weston et al., 2003], 但 由 于 决策 树 算 法 
在 构建 树 的 同时 也 可 看 作 进行 了 特征 选择 , 因此 嵌入 式 方法 也 可 妃 湖 到 ID3 
[Quinlan, 1986]. 有 很 多 文献 对 特征 选择 方法 的 性 能 进行 了 实验 比较 [Yang 
and Pederson, 1997; Jain and Zongker, 1997]. 更 多 关于 特征 选择 的 内 容 可 参 


阅 [Guyon and Elisseef 2003; Liu et oO) 以 及 专门 关于 特征 选择 的 书籍 
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11.7 阅读 材料 


直译 为 “最 小 角 回 归 ”， 
通常 直接 称 LARS . 


仍 以 汉语 文档 为 例 , 一 
个 概念 可 能 由 多 个 字 词 来 
表达 , 这 些 字 词 就 构成 了 
一 个 分 组 ; 若 这 个 概念 在 
文档 中 没有 出 现 , 则 这 整 
个 分 组 所 对 应 的 变量 都 将 
AX. 
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[Liu and Motoda, 1998, 2007]. 


LARS (Least Angle RegresSion) [Efron et al., 2004] 是 一 种 网 入 式 特征 
选择 方法 , 它 基于 线性 回归 平方 误差 最 小 化 , 每 次 选择 一 个 与 残 差 相关 性 最 


大 的 特征 . LASSO [Tibshirani, 1996] 可 通过 对 LARS 稍 加 修改 而 实现 . 在 


LASSO 基础 上 进一步 发 展 出 考虑 特征 分 组 结构 的 Group LASSO [Yuan and 
Lin, 2006]、 考 虑 特征 序 结构 的 Fused LASSO [Tibshirani et al., 2005] 等 变 体 . 
由 于 凸 性 不 严格 , LASSO 类 方法 可 能 产生 多 个 解 , 该 问题 通过 弹性 网 (Elastic 
Net) 得 以 解决 [Zou and Hastie, 2005]. 

”对 字典 学 习 与 稀疏 编码 [Aharon et al., 2006], 除了 通过 控制 字典 规模 从 
而 影响 稀疏 性 , 有 时 还 希望 控制 字典 的 “结构 ”, 例如 假设 字典 具有 “分 组 
结构 ”, 即 同一 个 分 组 内 的 变量 或 同 为 非 零 , 或 同 为 零 . 这 样 的 性 质 称 为 “分 
组 稀疏 性 ”(group sparsity), 相应 的 稀疏 编码 方法 则 称 为 分 组 稀疏 编码 (group 
sparse coding) [Bengio et al., 2009]. 稀 朴 编码 和 分 组 稀 朴 编码 在 图 像 特征 抽取 
方面 有 很 多 应 用 , 可 参阅 [Mairal et al., 2008; Wang et al., 2010]. 

压缩 感知 IDonoho，2006; Candés et al., 2006] 直接 催生 了 人 脸 识别 的 
鲁 棒 主 成 分 分 析 [Candes et al., 2011] 和 基于 和 矩阵 补 全 的 协同 过 滤 [Recht 
et al., 2010]. [Baraniuk, 2007] 是 关于 压缩 感知 的 一 个 简短 介绍 . 将 Lo 范 
数 最 小 化 转化 为 Li 范 数 最 小 化 后 , 常用 求解 方法 除了 转化 为 LASSO 的 
基 寻 踪 去 噪 , 还 可 使 用 基 寻 踪 (Basis Pursuit) [Chen et al., 1998|、 匹 配 寻 
踪 (Matching Pursuit )[Mallat and Zhang, 1993] =. [Liu and Ye, 2009] 使 
用 投影 法 快速 求解 稀疏 学 习 问 题 , 并 提供 了 一 个 稀疏 学 习 程 序 包 SLEP 
(http://www.yelab.net /software/SLEP /) 
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RAZ. 


11.10* 


第 11 章 特征 选择 与 稀 琉 学 习 


试 编程 实现 Relief 算法 , 并 考察 其 在 西瓜 数据 集 3.0 上 的 运行 结果 


试 写 出 ReliefF 的 算法 描述 


Relief 算法 是 分 别 考察 每 个 属性 的 重要 性 试 设计 一 个 能 考虑 每 一 对 


属性 重要 性 的 改进 算法 . 


WA LVW 设计 一 个 改进 算法 ， 即便 有 运行 时 间 限 制 该 算法 也 一 定 能 


给 出 解 
结合 图 11.2, 试 举例 说 明 Ly 正则 化 在 何 种 情形 下 不 能 产生 稀疏 解 
试 析 岭 回归 与 支持 向 量 机 的 联系 。 

试 述 直 接 求 解 Lo 范 数 正则 化 会 遇 到 的 困难 . 


试 给 RRA Lı Mae I I NT 14) oe AAS PL. 


试 述 字典 学 习 与 压缩 感知 对 稀疏 性 利用 的 异同 . 


试 改进 式 (11.15), 以 学 习 出 具有 分 组 稀 政 性 的 字典 
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利 活 夫 (Lviv) 在 历史 上 


先 属于 波兰 ，1867 一 1918 


年 属于 奥 多 常 国 ,第 一 


次 世界 大 战 后 回归 波兰 ， 
1939 年 划 入 前 苏联 的 乌 克 
兰 ， 现 为 乌克兰 利 沃 夫 州 
首府 . 
Rr BPR fo Bile 
oe RMA E HAF 
Fi, 


蒙特 卡 罗 方法 的 著名 代 
表 Metropolis-Hasting 算法 
是 以 他 的 名 字 命 名 的 . 
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68(1):49-67. 
Zou, H. and T. Hastie. (2005). “Regularization and variable selection via the 
-© elastic net.” Journal of the Royal Statistical Society - Series B, 67 (2):301- 
320. | | 


小 故事 : 蒙特 卡 罗 方 法 与 斯 坦 尼 斯 拉夫 。 乌 拉 姆 
斯 坦 尼 斯 拉夫 .乌拉 姆 (Stanislaw Ulam, 1909-1984) 
是 著名 的 波兰 犹太 裔 数学 家 , 在 遍历 论 、 数 论 、 集 合 论 等 方 
面 都 有 重要 贡献 ， “乌拉 姆 数列 ”就 是 以 他 的 名 字 命 名 的 ， 
乌拉 姆 出 生 于 奥 匈 帝国 利 沃 夫 , 1933 年 在 波兰 利 沃 夫 
理工 学 院 获 得 数学 博士 学 位 , 然后 于 1935 Hy. eR 
的 邀请 到 普林斯顿 高 等 研究 院 访问 , 1940 年 他 在 威斯康星 大 学 麦迪 示 分 校 获 得 
BR, 翌年 如 入 美国 籍 . 1943 年 起 他 参与 “曼哈顿 计划 ”并 做 出 重大 贡献 ; 4 
前 世界 上 绝 大 部 分 核武 器 所 使 用 的 设计 方案 “泰勒 -乌拉 姆 方案 ”就 是 以 他 和 和 
BAZI? RRP. 泰勒 的 名 字 命名 的 
”世界 上 最 早 的 通用 电子 计算 机 之 一 一 一 ENIAC 在 发 明 后 即 被 用 于 曼 哈 
顿 计划 , 乌拉 姆 敏锐 地 意识 到 在 计算 机 的 帮助 下 , 可 通过 重复 数 百 次 模拟 过 程 





”的 方式 来 对 概率 变量 进行 统计 估计 . 冯 。 诺 伊 曼 立即 认识 到 这 个 想法 的 重要 


性 并 给 予 支持 . 1947 年 乌拉 姆 提出 这 种 统计 方法 并 用 于 计算 核 裂 变 的 连锁 反 
应 . 由 于 乌拉 姆 常 说 他 的 叔叔 又 在 蒙特 卡 罗 赌场 输 钱 了 , 因此 他 的 同事 Nicolas 
Metropolis 戏称 该 方法 为 “蒙特 卡 罗 ” ; 不 料 却 流 传 开 去 ， 
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12.1 基础 知识 


顾名思义 ; 计算 学 习 理 论 (computational learning theory) 研 究 的 是 关于 通 
过 “计算 ”来 进行 “学 习 ” 的 理论 , 即 关 于 机 器 学 习 的 理论 基础 , 其 目的 是 分 
析 学 习 任务 的 困难 本 质 , 为 学 习 算法 提供 理论 保证 , 并 根据 分 析 结 果 指 导 算法 
设计 . 

给 定 样 例 集 D = {(x1, y1), (22, Y2), ---, (Em Ym) J, Ti E ,本 章 主要 讨论 
二 分 类 问题 , 者 无 特别 说 明 , yi EVY = {-1, +1}. 假设 中 的 所 有 样本 服从 一 
个 隐 含 未 知 的 分 布 D, D 中 所 有 样本 都 是 独立 地 从 这 个 分 布 上 采样 而 得 , 即 独 
并 同 分 布 (independent and identically distributed, 简称 i.i.d.) PEA. 


ARAM & BY 的 一 个 映射 ， 其 泛 化 误差 为 


BE(h;D) = Psp (h(z) #9) , (12.1) 
”hh 在 D 上 的 经 验 误差 为 
B(h; D) = — YI(h(ei) # yi) . (12.2) 
i=l 


HF D Æ DAADE, Ath 的 经 验 误 差 的 期 望 等 于 其 泛 化 误 

差 . 在 上 下 文明 确 时 , RA Elh; D) 和 Blh; D) 分 别 简 记 为 Elh) 和 Bh). > 

e 为 E(h) 的 上 限 , BH EC) < e 我 们 通常 用 e 表示 预先 设 定 的 学 得 模型 所 应 满 

“本章 后 面部 分 将 研究 经 验 误差 与 泛 化 误差 之 间 的 逼近 程度 . 若 h 在 数据 集 

D 上 的 经 验 误差 为 0, WR h SDM, 否则 称 其 与 DD 不一致 . 对 任意 两 个 映 
«Rh ke € XK OY, WIE “AA” (disagreement) KES ENZ MNF: 


d(hy, h2) = Pr~p(hy (x) F ho(x)) : | | (12.3) 


我 们 会 用 到 几 个 常用 不 等 式 : 
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EEE 
e Jensen 不 等 式 : 对 任意 凸 函数 f(x), 有 
f (E(x)) < E(f(2)) . | (12.4) 


° Hoeffding 不 等 式 [Hoeffding, 1963]: Æ 21, 22,...,2m A m 个 独立 随机 变 
量 , HÆ 0 < zi; <1, 则 对 任意 e> 0, 有 


1 Jl 
P (= ba? 一 一 > E(z:) > e) < exp(—2me’) , (12.5) 
. ME are | 
| | ia ee 
Oe ea 


e McDiarmid 不 等 式 (McDiarmid, 1989]: 若 21, 22,...,2m 为 m 个 独立 随 
机 变量 , 且 对 任意 1 < i < m, 函数 f 满足 


之 < 2exp(—2me?) . | (12.6) 








sup |f (21, cee (ta) 了 f (21, cee 1 Li, Litls tee qu || < Ci; 


/ 
Tl; Tm, Ti 


则 对 任意 e > 0, 有 





a 
P (f Gy oy) -E(f (tipset) Se) S exp (=) a. (12.7) 
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12.2 PAC 学 习 


计算 学 习 理 论 中 最 基本 的 是 概率 近似 正确 (Probably Approximately 
Correct, 简称 PAC) 学 习 理 论 [Valiant，1984]，“ 概 率 近 似 正确 ”这 个 名 字 
看 起 来 有 点 古怪 , 我 们 稍 后 再 解释 ， 
Ac RAN “ER” (concept), 这 是 从 样本 空间 X 到 标记 空间 y 的 映射 , 它 
决定 示例 z 的 真实 标记 y, 若 对 任何 样 例 (x,y) 有 c(z) = y 成 立 , 则 称 CHA 
标 概念 ; 所 有 我 们 希望 学 得 的 目标 概念 所 构成 的 集合 称 为 “概念 类 ”(concept 
class), 用 符号 C 表示 . 
给 定 学 习 算法 它 所 考虑 的 所 有 可 能 概念 的 集合 称 为 “假设 空 
R te HJ” (hypothesis space), 用 符号 H 表示 .由 于 学 习 算 法 事先 并 不 知道 概念 


任务 本 身 对 应 的 假设 空间 ， 类 的 真实 存在 , 因此 区 和 C 通常 是 不 同 的 , 学 习 算法 会 把 自 认为 可 能 的 目标 概 
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12.2 PAC} 


参见 1.4 FB. 


一 般 来 说 , 训练 样 例 越 
少 , 采样 偶然 性 越 大 . 


样 例 数目 m 与 误差 e、 
置信 和 度 5、 数据 本 身 的 复 
杂 度 size(z2)、 目 标 概念 的 
复杂 度 size(c) 都 有 关 . 
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念 集中 起 来 构成 H, 对 heH, 由 于 并 不 能 确定 它 是 否 真是 目标 概念 , 因此 称 为 
“假设 ”(hypothesis). 显然 , 假设 hh 也 是 从 样本 空间 到 标记 空间 Y 的 映射 . 
ERES cE H, 则 多 中 存在 假设 能 将 所 有 示例 按 与 真实 标记 一 致 的 方 
式 完全 分 开 , 我 们 称 该 问题 对 学 习 算 法 SH “ATA” (separable), 亦 称 “ 一 
致 的 ”(consistent); 车 c g H, M 中 不 存在 任何 假设 能 将 所 有 示例 完全 正 
确 分 开 , 称 该 问题 对 学 习 算法 L 是 “不 可 分 的 ”(non-separable), 亦 称 “不 一 
致 的 ”(non-consistent). 
给 定 训练 集 D, 我 们 希望 基于 学 习 算 法 £& 学 得 的 模型 所 对 应 的 假设 尽 可 
能 接近 目标 概念 c. 读者 可 能 会 问 : 为 什么 不 是 希望 精确 地 学 到 目标 概念 c 呢 ? 
这 是 由 于 机 器 学 习 过 程 受到 很 多 因素 的 制约 , 例如 我 们 获得 的 训练 集 D 往往 仅 
包含 有 限 数量 的 样 例 , 因此 , 通常 会 存在 一 些 在 D 上 “等 效 ”的 假设 , 学 习 算 
法 对 它们 无 法 区 别 ; 再 如 , 从 分 布 D 采样 得 到 D 的 过 程 有 一 定 偶然 性 , 可 以 想 
象 , 即便 对 同样 大 小 的 不 同 训练 集 , 学 得 结果 也 可 能 有 所 不 同 . 因此 , 我 们 是 希 
望 以 比较 大 的 把 握 学 得 比较 好 的 模型 , 也 就 是 说 , 以 较 大 的 概率 学 得 误差 满足 
预 设 上 限 的 模型 ; 这 就 是 “概率 ”“ 近 似 正 确 ” 的 含义 . 形式 化 地 说 , > 6 表示 
置信 度 , 可 定义 : 


”定义 12.1 PAC AR (PAC Identify): 对 0 <e6 < L, 所 有 ce C 和 分 布 
D, 各 存在 学 习 算 法 L, 其 输出 假设 he H 满足 


P(E(h) <e) 21-6, ， (12.9) 


则 称 学习 算 法 £ 能 从 假设 空间 H P PAC 辨识 概念 类 C. 


这 样 的 学 习 算法 能 以 较 大 的 概率 (至 少 1 — 6) 学 得 目标 概念 的 近似 
(误差 最 多 为 €) 在 此 基础 上 可 定义 : 


定义 12.2 PAC 可 学 习 (PAC Learnable): 令 m 表示 从 分 布 D 中 独立 同 
分 布 采样 得 到 的 样 例 数目 , 0 < e,6 < 1, 对 所 有 分 布 D, 车 存在 学 习 算法 L 和 多 
THT PRL poly(-,-,-,-), 使 得 对 于 任何 m > poly(1/e, 1/6, size(a), size(c)), £ Be 
从 假设 空间 H 中 PAC 辨识 概念 类 CC, 则 称 概念 类 C 对 假设 空间 H 而 言 是 PAC 
可 学 习 的 , 有 时 也 简称 概念 类 C 是 PAC 可 学 习 的 . 


对 计算 机 算法 来 说 , 必然 要 考虑 时 间 复 杂 度 , 于 是 : 
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定义 12.3 PAC 学 习 算 法 (PAC Learning Algorithm): FAJAI 使 
概念 类 C 为 PAC 可 学 习 的 , H L 的 运行 时 间 也 是 多 项 式 函 数 poly(1/e, 1/6, 
size(Z), size(c)), WE KSX C 是 高 效 PAC 可 学 习 (on PAC learnable) 
的 , 称 8 为 概念 类 C 的 PAC 学 习 算法 . 


候 定 学 习 算 法 S 处 理 每 个 样本 的 时 间 为 常数 则 © 的 时 间 复 杂 杂 度 等 价 于 样 
本 复杂 度 . 于 是 , 我 们 对 算法 时 间 复杂 度 的 关心 就 转化 为 对 样本 复杂 度 的 关心 


定义 12.4 样本 复杂 度 (Sample Complexity): 满足 PAC F YF L Pr 
需 的 m > poly(1/e, 1/8, size(x), size(c)) 中 最 小 的 m, 称 为 学 习 算 法 © 的 样本 


显然 , PAC 学 习 给 出 了 一 个 抽象 地 刻画 机 器 学 习 能 力 的 框架 , 基于 这 个 杠 
架 能 对 很 多 重要 问题 进行 理论 探讨 , 例如 研究 某 任务 在 什么 样 的 条 件 下 可 学 得 - 
较 好 的 模型 ? 某 算法 在 什么 样 的 条 件 下 可 进行 有 效 的 学 习 ? 需 多 少 训 练 样 例 才 
能 获得 较 好 的 模型 ? 

”PAC 学 习 中 一 个 关键 因素 是 假设 空间 ZX 的 复杂 度 . HAST SURE L 
所 有 可 能 输出 的 假设 , 若 在 PAC 学 习 中 假设 空间 与 概念 类 完全 相同 , H = C, 
EA “Pe PAC 可 学 习 ” (properly PAC learnable); 直观 地 看 , 这 意味 着 学 习 
算法 的 能 力 与 学 习 任务 “恰好 匹配 ”. 然而 , 这 种 让 所 有 候选 假设 都 来 自 概念 
类 的 要 求 看 似 合理 , 但 却 并 不 实际 , 因为 在 现实 应 用 中 我 们 对 概念 类 C 通常 一 
无 所 知 , 更 别 说 获得 一 个 假设 空间 与 概念 类 ， 洽 好 相同 的 学 习 算 法 . 显然 ; 更 重要 
的 是 研究 假设 空间 与 概念 类 不 同 的 情形 ， HAC. 一 般 而 言 , HRA, 其 包含 
任意 目标 概念 的 可 能 性 越 大 ， 但 从 中 找到 某 个 具体 目标 概念 的 难度 也 越 大 . [H] 


TER 我 们 称 H 为 “有 限 假设 空间 ”, 否则 称 为 “无 限 假设 空间 ”. 


12.3 有 限 假设 空 s 间 


12.3.1 可 分 情形 | 
可 分 情形 意味 着 目标 概念 c 属于 假设 空间 H, 即 c € KX. 给 定 包含 m ME 
例 的 训练 集 D, 如 何 找 出 满足 误差 参数 的 假设 呢 ? 
容易 想到 一 种 简单 的 学 习 策略 : 既然 D 中 样 例 标记 都 是 由 目标 概念 ec 赋予 
的 , 并 且 c 存在 于 假设 空间 H 中 , 那么 , 任何 在 训练 集 D 上 出 现 标记 错误 的 假 
设 肯定 不 是 目标 概念 TE, 我 们 只 需 保留 与 D 一 致 的 假设 , 剔除 与 忆 不 一 


致 的 假设 即 可 . 车 训练 集 D 足够 大 , 则 可 不 断 借助 D 中 的 样 例 刚 队 个 一 致 的 假 
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设 , 直到 Zt 中 仅 剩 下 一 个 假设 为 止 , 这 个 假设 就 是 目标 概念 .通常 情形 下 , 由 
于 训练 集 规模 有 限 , 假设 空间 H 中 可 能 存在 不 止 一 个 与 DD 一 致 的 “等 效 ” 候 
设 对 这 些 等 效 假 设 , 无 法 根据 D 来 对 它们 的 优先 做 进一步 区 分 

到 底 需 多 少 样 例 才能 学 得 目标 概念 c 的 有 效 近似 呢 ? 对 PAC 学 习 来 说 只 
要 训练 集 D 的 规模 能 使 学 习 算 法 2 以 概率 1 — 5 找到 目标 假设 的 e 近似 即 可 . 


我 们 先 估计 泛 化 误差 大 于 e 但 在 训练 集 上 仍 表现 完美 的 假设 出 现 的 概率 . 
假定 户 的 泛 化 误差 大 于 e NAA D 上 随机 采样 而 得 的 任何 样 例 (2,%), 有 


P(h(x) =y) =1— P(h(x) £y) 
= 1— E(h) 
<l-e. (12.10) 


HF DEE mA D 独立 同 分 布 采样 而 得 的 样 例 , 因此 , h 与 也 表现 一 


P((h(@1) = y1) A... A (hEm) = Ym) ) = (1— P (h (2) #y))™ 
< (1-6). (12.11) 


我 们 事先 并 不 知道 学 习 算法 2 会 输出 H 中 的 哪个 假设 , 但 仅 需 保证 泛 化 
误差 大 于 e, 且 在 训练 集 上 表现 完美 的 所 有 假设 出 现 概率 之 和 不 大 于 6 即 可 : 


P(h € H: E(h) > €A E(h) =0) < |[H|(1 — €)” 


< [Hle , (12.12) 
令 式 (12.12) 不 大 于 6, 即 
[Hle ™ <6, (12.13) 
可 得 
m> =(In [|X|+ ln (12.14) 


由 此 可 知 , 有 限 假设 空间 H 都 是 PAC 可 学 习 的 , 所 需 的 样 例 数目 如 
式 (12.14) 所 示 , 输出 假设 户 的 泛 化 误差 随 样 例 数 目的 增多 而 收敛 到 0, 收敛 速 
率 为 O(+). 
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12.3.2 不 可 分 情形 

对 较为 困难 的 学 习 问 题 , 目标 概念 c 往往 不 存在 于 假设 空间 H 中 . 假定 对 
FEA h € H, E(h) £0, 也 就 是 说 , H 中 的 任意 一 个 假设 都 会 在 训练 集 上 出 现 
或 多 或 少 的 错误 由 Hoeffding 不 等 式 易 知 : 


引 理 12.1 车 训练 集 刀 包含 m 个 从 分 布 D 上 独立 同 分 布 采样 而 得 的 样 
例 , 0 <e <1, 则 对 任意 he H, 有 E 


P(E(h) — E(h) > €) < exp(—2me?) , (12.15) 
P(E(h) — E(h) > €) < exp(—2me?) , (12.16) 
P(|E(h) - Ê(h)| > e) < 2exp(—2me?) . (12.17) 


推论 12.1 HVA DAS m 个 从 分 布 D 上 独立 同 分 布 采样 而 得 的 样 2 
例 , 0 <e <1, 则 对 任意 h € H, 式 (12.18) 以 至 少 1 一 6 的 概率 成 立 : 


~ 


Bh) — n < EH) < Êh) + (12.18) 


推论 12.1 表 明 , 样 例 数目 m BAW, h 的 经 验 误差 是 其 泛 化 误差 很 好 的 近 
似 . 对 于 有 限 假设 空间 H, 我 们 有 


定理 12.1 GH 为 有 限 假设 空间 , 0 < 6 <1, 则 对 任意 he H, 有 


ae Ua 


2m 


P(|E(h) — E(h)| < —§. (lt2.19) 


证 明 4 hy, hoy... hpg 表示 假设 空间 H 中 的 假设 , 有 
P(ah E€ H: |E(h) — E(A)| > €) 
=P( (|En — Pn | > €) Vises NV. (|En — Enya > c)) 


<< Ñ P(\E(h) - Bn) > €) , 


heH 
Fash (12.17) 
> P( (so - BW) |: )| > 9 < 2|H| exp( 一 2me2) 


hEH 
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即 在 了 的 所 有 假设 中 找 
出 最 好 的 一 个 . 
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于 是 , > ô = 2|\H| exp(—2me?) 即 可 得 式 (12.19). | 


显然 , 当 c 4 XK 时 , 学 习 算 法 2 无 法 学 得 目标 概念 c 的 e 近似 . 但 是 , 4 
假设 空间 HAEN, 其 中 必 存 在 一 个 泛 化 误差 最 小 的 假设 , 找 出 此 假设 的 e 
近似 也 不 失 为 一 个 较 好 的 目标 . X 中 泛 化 误差 最 小 的 假设 是 arg minpey E(h), 
于 是 ， 以 此 为 目标 可 将 PAC 学 习 推 广 到 c 4¢ XY 的 情况 , 这 称 为 “不 可 知 学 
习 ”(agnostic learning). 相应 的 , BANA 


定义 12.5 不 可 知 PAC 可 学 习 (agnostic PAC learnable): 令 m 表 
示 从 分 布 DD 中 独立 同 分 布 采样 得 到 的 样 例 数目 , 0 < e 6 < 1, 对 所 
有 分 布 D, ES RIE L 和 多 项 式 函 数 poly(,…*), 使 得 对 于 任何 
m > poly(1/e, 1/6, size(a), size(c)), £ 能 从 假设 空间 XH 中 输出 满足 式 (12.20) 的 


”假设 h: 


P(E(h) — min E(h') <e) >1-ô, (12.20) 


则 称 假设 空间 H 是 不 可 知 PAC 可 学 习 的 . 


与 PAC 可 学 习 类 似 , EF JAA L 的 运行 时 间 也 是 多 项 式 函 数 
poly(1/e, 1/6, size(a), size(c)), 则 称 假设 空间 H 是 高 效 不 可 知 PAC 可 学 习 
的 , 学 习 算 法 L 则 称 为 假设 空间 H 的 不 可 知 PAC 学 习 算 法 , 满足 上 述 要 求 的 
最 小 m 称 为 学 习 算 法 中 的 样本 复杂 


12.4 VC 维 


现实 学 习 任务 所 面临 的 通常 是 无 限 假设 空间 , 例如 实数 域 中 的 所 有 区 
fa]. R® 空间 中 的 所 有 线性 超 平面 . 欲 对 此 种 情形 的 可 学 习性 进行 研究 , 需 
度量 假设 空间 的 复杂 度 . 最 常见 的 办 法 是 考虑 假设 空间 的 “VC 维 ” (Vapnik- 
Chervonenkis dimension) |Vapnik and Chervonenkis, 1971]. 

介绍 VC 维 之 前 , 我 们 先 引入 几 个 概念 : 增长 函数 (growth function)、 对 
分 (dichotomy) 和 打 散 (shattering). 

给 定 假设 空间 HARAR D = {21,22,..., 8m}, H 中 每 个 假设 h 都 能 
D 中 示例 赋予 标记 , 标记 结果 可 表示 为 


hip = {(h(z T ) h(a), 2) ssh (Em) )}. 
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例如 , 对 二 分 类 问题 , 若 
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ie, l 随 着 m 的 增 大 , H 中 所 有 假设 对 中 的 示例 所 能 赋予 标记 的 可 能 结果 数 


DD 中 只 有 2 个 示例 , WK 
予 标 记 的 可 能 结果 只 有 4 
种 ; 若 有 3 个 示例 , 则 可 能 
结果 有 8 种 . 


N 为 自然 数 域 . 


也 会 增 大 . | 
“定义 12.6 对 所 有 m EN, 假设 空间 H 的 增长 函数 Unm) 为 


(Mm) =, n lf (h (21), ..;h(@m)) [hE H}|. (12.21) 
增长 函数 Hz (mm) 表示 假设 空间 H X mm 个 示例 所 能 赋予 标记 的 最 大 可 能 
结果 数 ， 显 然 , 3! 对 示例 所 能 赋予 标记 的 可 能 结果 数 越 大 , H 的 表示 能 力 越 强 


对 学 习 任务 的 适应 能 力也 越 强 . 因此 , 增长 函数 描述 了 假设 空间 H 的 表示 能 力 ， 


证 明 过 程 参 阅 [Vapnik 
and Chervonenkis, 1971]. 


pave 入 会 把 中 示例 
分 为 两 类 , 因此 称 为 对 分 


由 此 反映 出 假设 空间 的 复杂 度 . 我 们 可 利用 增长 函数 来 估计 经 验 误差 与 泛 化 误 


” 差 之 间 的 关系 : 


定理 12.2 对 假设 空间 H, meN, 0 < 。< 1 和 任意 六 到 有 


2 
iew — Ê(h)| > €) < 4I (2m) exp ( — =): (12.22) 
假设 空间 H 中 不 同 的 假设 对 于 D 中 示例 赋予 标记 的 结果 可 能 相同 , 也 可 
能 不 同 ; 尽管 % 可 能 包含 无 穷 多 个 假设 , 但 其 对 D 中 示例 赋予 标记 的 可 能 结果 
数 是 有 限 的 : 对 m 个 示例 , 最 多 有 2m 个 可 能 结果 . 对 二 分 类 问题 来 说 , H 中 的 


假设 对 D 中 示例 赋予 标记 的 每 种 可 能 结果 称 为 对 D 的 一 种 “对 分 ”. ARE 


空间 H 能 实现 示例 集 D 上 的 所 有 对 分 , B Hx(m) = 2™, 则 称 示例 集 忆 能 
假设 空间 H “FTR” . 
现在 我 们 可 以 正式 定义 VC 维 了 : 
定义 12.7 Baz =i H 的 \ VC 维 是 能 说 H 打 散 的 最 大 示例 集 的 大 小 , 即 


VC(H) = max{m T(m) = ae (12.23) 


VOH) = 4 表明 存在 大 小 为 4 的 示例 集 能 被 候 设 空间 20 打 散 . 注意 : 这 并 


“不 意味 着 所 有 大 小 为 d 的 示例 集 都 能 被 假设 空间 HITE. 细心 的 读者 可 能 已 发 


现 , VC 维 的 定义 与 数据 分 布 DD 无关 ! 因此 , 在 数据 分 布 未 知 时 仍 能 计算 出 假设 


空间 其 的 VC HÈ. 


通常 这 样 来 计算 区 的 VC J 维 车 存在 大 小 为 d 的 示例 集 能 被 H ITH, 但 不 


| 存在 任何 大 小 为 d 十 1 的 示例 集 外 被 9 H FTR, WH A VC 维 是 d. ois 会 出 两 


个 计算 VC 维 的 例子 : : 
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例 12.1 实数 域 中 的 区 间 [a,b]: S XH 表示 实数 域 中 所 有 闭 区 间 构 成 的 集 
人 
否则 huai) = —1. S a, = 0.5, vo = 1.5, 则 假设 空间 H 中 存在 假设 
{hio Rio, Ra, Ray 将 {zx1, vo} ITE, 所 以 假设 空间 戏 的 VC 维 至 少 为 2; 
对 任意 大 小 为 3 的 示例 集 {x3, x4, 25}, 不 妨 设 za < za < 25, WH 中 不 存在 任 
何 假设 hla 能 实现 对 分 结果 {(£3, +), (£4, —), (25, 十 )} TÆ, H 的 VC 维 为 2. 


fil 12.2 二 维 实 平面 上 的 线性 划分 : S 4 表示 二 维 实 平面 上 所 有 线性 划 
分 构成 的 集合 , X =R. 由 图 12.1 可 知 , 存在 大 小 为 3 的 示例 集 可 被 H FIR, 
但 不 存在 大 小 为 4 Was BSS i HI. 于 是 , 二 维 实 平面 上 所 有 线性 划分 构 
成 的 假设 空间 的 VC 维 为 3. 








存在 这 样 的 集合 ， 其 23 一 8 种 对 分 均 可 对 任何 集合 ， 其 24 二 16 种 对 分 中 
被 线性 划分 实现 至 少 有 一 种 不 能 被 线性 划分 实现 
(a) 示例 集 大 小 为 3 (b) 示例 集 大 小 为 4 


图 12.1 二 维 实 平面 上 所 有 线性 划分 构成 的 假设 空间 的 VC 维 为 3 


由 定义 12.7 可 知 , VC 维 与 增长 函数 有 密切 联系 , 引 理 12.2 给 出 了 二 者 之 
间 的 定量 关系 [Sauer, 1972]: 


亦 称 “Sauer 引 理 ” . 引 理 12.2 BRETH H 的 VC 维 为 d, 则 对 任意 m EN 有 
: m 
II < l 12.24 


证 明 由 数学 归纳 法 证 明 . 当 m = 1, d= 0 或 d= 1 时, 定理 成 立 . 
假设 定理 对 (m 一 l,d — 1) 和 (m = 1, d) XL. 令 D = {Dis DP veg Deg ts 


D = {x1, £2, oe smt: 


Hip = { (h (x1) ,h (£2), ..- h (Em)) |R E H}, 
Hip: = { haia e na EN 


任何 假设 he KX 对 zm 的 分 类 结果 或 为 +1, 或 为 -1 因此 任何 出 现在 
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e 为 自然 常数 . 
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Hyp 中 的 串 都 会 在 Hip 中 出 现 一 次 或 两 次 . $ Upp 表示 在 Hp 中 出 现 两 次 
”的 Hp 中 串 组 成 的 集合 , 即 


Hopp ={ (YY ym-1) € Hyp | 3h, h €H, 
(h(i) = h (ai) = yi) A (hEm) h (rm), 1<i<m-1}. 
考虑 到 App PRE Hp 中 出 现 了 两 次 , 但 在 Hp 中 仅 出 现 了 一 次 ， 
有 
Hipi = Hyp + [ppl - (12.25) 


D' 的 大 小 为 m 一 1, 由 假设 可 得 
| as . 
[Hip | < Ix(m—1)< 2 ( i ) l (12.26) 


Hp 打 散 . a H 的 VC BE d, AUK Hyp 的 VC 维 最 大 为 d 一 1, 于 是 有 


Pl < Tum =D < ("7 ef - (12.27) 


| 由 式 (12.25)~(12.27) 可 得 


由 集合 D 的 任意 性 , 引 理 12.2 得 证 . | | i 


从 引 理 12.2 7 可 计算 出 增长 函数 的 上 界 : 
推论 12.2 若 假设 空间 H 的 VC 维 为 d, 则 对 任意 整数 m > d 有 


Tn(m) < (SPF. (12.28) 
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HERR 





根据 推论 12.2 和 定理 12.2 可 得 基于 VC 维 的 泛 化 误差 界 : 


定理 12.3 ERRER H 的 VC 维 为 d, 则 对 任意 m > d,0<5<1l 和 


heH#A | | 
让 gdn 222 + 8in4 
P [Hw - Be < (seen) > (12.29) 


e? 


WEAR & 4 IIqy(2m) exp(—2€-) < 4(492)¢ exp(—™£) = ô, 解 得 


2 4 
= 8dln =" + 8Ins 
m ? 


代入 定理 12.2, 于 是 定理 12.3 得 证 . 图 





由 定理 12.3 可 知 , 式 (12.29) 的 泛 化 误差 界 只 与 样 例 数目 m AR, 收敛 速率 
为 O( 4a), 与 数据 分 布 D 和 样 例 集 D FER. 因此, 基于 VC 维 的 泛 化 误差 界 是 


分 布 无 关 (distribution-free)、 数 据 独 立 (data-independent) 的 . 
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令 h 表 示 学 习 算法 输出 的 假设 若 及 满足 


E(h) = min E(h’) , (12.30) 


则 称 2 为 满足 经 验 风险 最 小 化 (Empirical Risk TE 人 简称 ERM) R 
则 的 算法 . 我 们 有 下 面 的 定理 : 


定理 12. 4 任何 VC 维 有 限 的 假设 空间 H 都 是 (不 可 知 ) PAC 可 学 习 的 . 


证 明 假设 £ 为 满足 经 验 风险 最 小 化 原则 的 算法 ， h 为 学 习 算法 2 输出 的 
假设 . & g 表示 XH 中 具有 最 小 泛 化 误差 的 假设 ， 即 





E(g) = min E(h) . (12.31) 
令 
0 一 5 5 
(In2/d') e- 
n (12.32) 
由 推论 12.1 可 知 


Bo) 一 < Elg) < Blg) +$ 


至 少 以 1 一 6/2 的 概率 成 立 . 令 ， | ne 
[same + 8in 4 č a 


P(E(h) — E(h) < =) Six 


则 由 定理 12.3 可 知 


bo | œ 


从 而 可 知 
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以 至 少 1 — 5 的 概率 成 立 . 由 式 (12.32) 和 (12.34) 可 以 解 出 m, 再 由 H 的 任意 性 
可 知 定理 12.4 得 证 . | | E 


12.5 Rademacher 42/2 


12.4 节 提 到 , 基于 VC 维 的 泛 化 误差 界 是 分 布 无 关 、 数 据 独 立 的 , 也 就 是 
说 , 对 任何 数据 分 布 都 成 立 . 这 使 得 基于 VC 维 的 可 学 习性 分 析 结 果 具 有 一 定 
的 “ 普 适 性 ”; 但 从 另 一 方面 来 说 , 由 于 没有 考虑 数据 自身 , 基于 VC 维 得 到 
的 泛 化 误差 界 通常 比较 “ 松 ”, 对 那些 与 学 习 问 题 的 典型 情况 相差 甚 远 的 较 
“ 坏 ” 分 布 来 说 尤其 如 此 . 


Rademacher 复杂 度 (Rademacher complexity) 是 另 一 种 刻画 假设 空间 复 
这 个 名 守 是 为 了 纪念 杂 度 的 途径 , 与 VC 维 不 同 的 是 , 它 在 一 定 程度 上 考虑 了 数据 分 布 . 


德国 数学 3-H. Rademach- | 
ae 给 定 训练 集 D = {(21, y1), (za Yo), - -< , (Lm, Ym) }, 假设 及 的 经 验 误差 为 


E(h) = TIL (xi) # yi) 


1 1 — y;h(a; 
=1y “ ) 


i=1 


1 ig | 
Sy. Gy, > ,yih(zi) ， (12.36) 
i=1 


Sp E E, y:h(wi) 体现 了 预测 值 hk(zs) 与 样 例 真 实 标记 y 之 间 的 一 致 性 , 车 
对 于 所 有 i € {1,2,...,m} 都 有 h(zi) = yi, WS OE, viha) 取 最 大 值 1. 也 
就 是 说 , 经 验 误差 最 小 的 假设 是 


1 m 
arg max — Al(a;) . 12.37 
gm m at (x;) (12.37) 


然而 , 现实 任务 中 样 例 的 标记 有 时 会 受到 噪声 影响 , 即 对 茶 些 样 例 zi, yi), 
其 yi 或 许 已 受到 随机 因素 的 影响 , 不 再 是 a, 的 真实 标记 . 在 此 情形 下 , 选择 假 
设 空间 H 中 在 训练 集 上 表现 最 好 的 假设 , 有 时 还 不 如 选择 H 中 事先 已 考虑 了 
随机 噪声 影响 的 假设 . 


考虑 随机 变量 0;, 它 以 0.5 的 概率 取信 —1, 0.5 的 概率 取 值 +1, RA “ 
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”Rademacher 随机 变量 . 基于 coi 可 将 式 (12.37) 重 写 为 
H 是 无 限 假设 空间 , 有 


m 
可 能 取 不 到 最 大 值 , 因此 1 es : bas 
使 用 上 确 界 代替 最 大 值 . ey 3 (wi) . | (12.38) 


考虑 XH 中 的 所 有 假设 , 对 式 (12.38) 取 期 望 可 得 


2 a 12.39 
Fo pL Me e]; (02.39) 
其 中 o = {01,02,..., 0m}. 式 (12.39) 的 取 什 范围 是 [0,1], 它 体 现 了 假设 空 
T H 的 表达 能 力 , 例如 , 当 H| = 1 时 , HX 中 仅 有 一 个 假设 , 这 时 可 计算 出 
式 (12.39) 的 值 为 0; 当 [H| = 2” H H 能 打 散 D 时 , 对 任意 o 总 有 一 个 假设 使 
得 h(xi) =c; (i 二 1,2,...,m);. 这 时 可 计算 出 式 (12.39) 的 值 为 1. 

考虑 实 值 函数 空间 F: ZR. $ Z= {21,20,...,2m}, 其 中 zi € Z, 将 
Th (12.39) PAY X AH BRA ZM FA 


定义 12.8 函数 空间 F RF 2 的 经 验 Rademacher 复杂 度 


Rz(F) = Eo [sup = > oif (zi)| . = 


经 验 Rademacher 复杂 度 衡量 了 函数 空间 F 与 随机 噪声 在 集合 2 中 的 相 


AN. 通常 我 们 希望 了 解 函数 空间 FEZ 上 关于 分 布 DD 的 相关 性 , 因此 , 对 所 
有 从 了 独立 同 分 布 采 样 而 得 的 大 小 为 m 的 集合 Z 求 期 望 可 得 


定义 12.9 函数 空间 FRF ZZ 上 分 布 DD 的 Rademacher 复杂 度 


Rm(F) = Ezez.z|=m RD (12.41) 


基于 Rademacher 复杂 度 可 得 关于 函数 空间 三 的 泛 化 误差 界 [Mohri et al., 
2012]: 


定理 12.5 对 实 值 函数 空间 F: ZR [0,1], 根据 分 布 从 Z 中 独立 同 分 


布 采 样 得 到 示例 集 Z = {21, Z2,..-, 2m}, ziEZE0<56<1 对 任意 太 e F, 以 
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至 少 1 - 6 的 概率 有 


E[ f(z) > f(z) + 2Rm(F aah) (12.42) 


2m 
oa f(z) + 2Rz(F) ) +34/ . (12.43) 








] m 
~ mm 


(Z) = sup E[f] — Ez(f) , 
JEF 
同时 , 令 Z 为 只 与 Z 有 一 个 示例 不 同 的 训练 集 , ROT 2m EZM zn EZ 为 
不 同 示例 , 可 得 


5(Z] — (2) = (supE[f] — Êx (2) — ( sup Ls] ~ B2(s)) 


fEF JEF 


< sup Bz(f) — Bz (f) 
fEF 


= sup A — fm) 


fEF m 
1 
ET 
m 
同 理 可 得 
®(Z)-@(Z)< = 
. = m i 

1 
| 更 (2) 一 更 (2 )| < 


根据 McDiarmid 不 等 式 (12.7) 可 知 , 对 任意 6 € (0,1), 


(Z) < Ez[®(Z)] + ae) ‘ (12.44) 


2m 





ww ai bbt. com TAAWOAA 





282 


利用 Jensen 不 等 式 
(12.4) Fe LAH BRK h 
性 . 


oi 与 一 ci 分 布 相同 . 
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以 至 少 1 一 5 的 概率 成 立 . 下面 来 估计 Ez[O(Z)] 的 上 界 : 
Ez[®(2)] = Ez| supE[] — Bi) 
=Ez| sup Ey [Bz (f)— Ez(F)]| 
< Ezz | sup Ey (P) - Bz(f)| 
= Ezy [sup 5 DU) ~ Fe) 
-E, ga! [sup = = 3 oil f(z; ) = fl) 


< Be y [sup = ` oif (z;)| + Eo,z [sup = ` -oif (zi) 
= 7 i=1 

= 2Ev yz [sup = > oif (zi) 
i=1 

= 2Rin(F) . 


至 此 , 式 (12. 42) 得 证 由 定义 12.9 号 可 知 改变 2 中 的 一 个 示例 对 Rz(F) ay 
造成 的 改变 最 多 为 1/m. 由 McDiarmid 不 等 式 (12.7) 可 知 ， 


Rn(F) < Rz(F)+Y m20) ae) 


以 至 少 1 8/2 的 概率 成 立 . 再 由 式 (12.44) 可 知 | 


8(2)< Ez[®(Z)| + m20) 


以 至 少 1 一 6/2 的 概率 成 立 . 于 是 ， 


In(2/6) 
2m 


以 至 少 1 — 5 的 概率 成 立 . 至 此 , 式 (12.43) 得 证 . / | 国 


(Z) < 2Rz(F)+3 





(12.46) 


需 注意 的 是 , 定理 12.5 中 的 函数 空间 三 是 区 间 (0, 1] 上 的 实 值 函数 , 因此 


定理 12.5 只 适用 于 回归 问题 . 对 二 分 类 问题 , 我 们 有 下 面 的 定理 : 
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定理 12.6 对 假设 空间 XW: X 一 {一 1, 十 1}, RHODA DA X 中 独立 同 分 
布 采 样 得 到 示例 集 D = {21,2@0,...,2m}, Xi E ,0 < 6 <1, 对 任意 he 
以 至 少 1 一 6 的 概率 有 | 


E(h) < E(h) + Rm(H) + 4/ m49) (12.47) 
E(h) < Ê(h) + Ro(H) + 34/ (12.48) 
证 明 对 二 分 类 问题 的 假设 空间 令 Z= X x {1,41}, 则 于 中 的 假设 
h 变形 为 
fn(z) = falx, y) = Uh(x) Ay), (12.49) 


于 是 就 可 将 值 域 为 {—] +1} 的 假设 空间 H FMA IEA [O, 1] 的 函数 空间 
Fu={friheu}. 由 定义 12.8, 有 


p La 
Rz(Fxu) = Eo | sup > 2 Oi fn(@i, vi) | 
ee | 
= Eo | sup = 2, oil(h(zi) 天 vi)| 
oe or 
2 
= 5E. [二 2 0i + sup = 3 (一 yiosh(wi)) 
= Eo l ap 二 > ( yioih(zi))| 
一 Yi0i 与 0; 分 布 相同 . = -Eo | SUP (oih(æ:))| 
对 式 (12.50) 求 期 望 后 可 得 
Rn Fu) = ŻRm(H) . (12.51) 


由 和 定理 12.5 和 式 (12.50 51), 定理 12.6 得 证 . 加 
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证 明 过 程 参 阅 Mohit et 
al., 2012) 
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定理 12.6 给 出 了 基于 Rademacher 复杂 度 的 泛 化 误差 界 . 与 定理 12.3 对 比 
可 知 , 基于 VC 维 的 泛 化 误差 界 是 分 布 无 大、 数据 独立 的 , 而 基于 Rademacher 
复杂 度 的 泛 化 误差 界 (12.47) 与 分 布 D 有 关 , 式 (12.48) 与 数据 DAK. KAZ, 
基于 Rademacher 复杂 度 的 泛 化 误差 界 依赖 于 具体 学 习 问 题 上 的 数据 分 布 , 有 
点 类 似 于 为 该 学 习 问 题 “ 量 身 定 制 ” 的 , 因此 它 通 常 比 基 于 VC 维 的 泛 化 误差 
界 更 紧 一 些 . 

什 得 一 提 的 是 关于 Rademacher 复杂 s 度 与 增长 函数 ， 有 如 下 定理 : 


| 定理 12.7 假设 空间 H 的 Rademacher 复杂 LE Rm(H) 与 增长 函数 
IIx(m) 满足 
aT 


m 


Rm (H) < (12.52) 


由 式 (12.47), (12.52) 和 推论 12.2 可 得 


Eh) < B(h) + 于 +y ma (12.53) 


也 就 是 说 , 我 们 从 deeder 复杂 度 和 增长 函数 能 推导 出 基于 VC 维 的 泛 化 
误差 界 . 


12.6 稳定 性 


无 论 是 基于 VC 维 还 是 Rademacher 复杂 度 来 推导 泛 化 误差 界 , 所 得 到 的 
结果 均 与 具体 学 习 算 法 无 关 , 对 所 有 学 习 算法 都 适用 . 这 使 得 人 们 能 够 脱离 具 
体 学 习 算 法 的 设计 来 考虑 学 习 问 题 本 喘 的 性 质 , 但 在 男 一 方面 , 者 希望 获得 与 


算法 有 关 的 分 析 结果 ， 则 需 另 辟 蹊 径 . 稳定 性 (stability? 分 析 是 这 方面 一 个 值 
得 关注 的 方向 . | 


顾名思义 算法 的 “稳定 性 ”考察 的 是 算法 在 输入 发 生变 化 时 , 输出 是 否 | 
会 随 之 发 生 较 大 的 变化 . 学 习 算法 的 输入 是 训练 集 ， Abe Deere Mee 
集 的 两 种 变化 . 


给 定 D = {21 = (21,91), 22 = (22,Y2),..., Zm = a. )}, zi CX BK 
自分 布 D 的 独立 同 分 布 示例 , yi = {一 1 aa. 对 候 设 空间 WH: X 全 {-1,41} 
和 学 习 算 法 £, S Lp EH 表示 基于 训练 集 D 从 假设 空间 H 中 学 得 的 假设 . 考 


E D 的 以 下 变化 : 
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o DV 表示 移 除 D 中 第 i 个 样 例 得 到 的 集合 


1 
D\ = { 21, Z2, .. e3 Zi—l; Si415--°5 AR 


o Di 表示 替换 D 中 第 i 个 样 例 得 到 的 集合 
D? = { 21; Doe sus mals Zi, PAE i 


其 中 zi = (x,y), x, 服从 分 布 D 并 独立 于 D. 


损失 函数 [(8p(zw),y) : V xV — R? 刻画 了 假设 Lp 的 预测 标记 Lp(a) 与 
真实 标记 yy 之 间 的 差别 , 简 记 为 (Lp, z). 下 面 定 义 关 于 假设 Lp 的 几 种 损失 . 


o tink 


&(£,D) = Bex ,2z=(a,y) [e(Lp, z)| (12.54) 
e。 经 验 损 失 三 
人 ~ 1 
l£, D) = — 2 AED, zi). (12.55) 


。 留 一 (leave-one-out) 损 失 
ea 
Liool £, D) a m 2 Eps #4) : (12.56) 


下 面 定 义 算法 的 均匀 稳定 性 (uniform stability): 


定义 12.10 IMER æ € X, z = (x,y), 若 学 习 算 法 £4 满足 


\e(Lp, z) — ULpri,2)| <8, i=1,2,...,m, (12.57) 
则 称 L 关于 损失 函数 4 满足 5- 均匀 稳定 性 . 


显然 , BOE 8 关于 损失 函数 满足 8- 均 匀 稳 定性 , 则 有 


(gp, 2) - £n: 2)| 
< (Lp, 2) = (Lpi, z)| + (£pi, z) = &(Lpvi, 2)| 





< 28, 
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证明 过 程 参 阅 [Bous- 


quet and Elisseeff, 2002]. 


最 小 化 经 验 误 差 和 最 小 
化 经 验 损失 有 时 并 不 相同 ， 
这 是 由 于 存在 某 些 病态 的 _ 
损失 函数 《使 得 最 小 化 经 _ 
验 损失 并 不 是 最 小 化 经 验 
误差 . 为 简化 讨论 , 本 章 假 
定 最 小 化 经 验 损 失 的 同时 
”会 最 小 化 经 验 误差 . 
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也 就 是 说 , 移 除 示 例 的 稳定 性 包含 蔡 换 示例 的 稳定 性 . 
“车 损失 函数 OAR, 即 对 所 有 DM z= (x,y) A 0 < (£p, z) < M, WA 
[Bousquet and Elisseeff, ae 


定理 12.8 给 定 从 分 布 上 独立 同 分 布 采样 得 到 的 大 小 为 m 的 示例 集 
D, 车 学 习 算法 © 满足 关于 损失 函数 4 的 8- 均 匀 稳 定性 , 且 损 失 函 数 4 的 上 界 
为 M, 0 < 5 <1, 则 对 任意 m > 1, 以 至 少 1 一 6 的 概率 有 


K£, D) < UL,D)+28+ (4m8 + M ) 人 (12.58) 
人 (£,D) < lioo(£, D) + B+ (4m8 + M)4 | SA (12.59) 


定理 12.8 给 出 了 基于 稳定 性 分 析 推 导出 的 学 习 算法 & 学 得 假设 的 泛 化 误 
ER. 从 式 (12.58) 可 看 出 , 经 验 损失 与 泛 化 损失 之 间 差 别 的 收敛 率 为 Bym, F 
B = O( 去 ), 则 可 保证 收敛 率 为 O( Fa): 与 定理 12.3 和 定理 12.6 比较 可 知 , 这 


与 基于 VC 维和 Rademacher 复杂 度 得 到 的 收敛 率 一 致 . 


MER, 学 习 算法 的 稳定 性 分 析 所 关注 的 是 | 人 8, D) - KL, D), 而 假设 空 
间 复 杂 度 分 析 所 关注 的 是 suppex |E(h) 一 E(h)|; 也 就 是 说 , 稳定 bint 
虑 假设 空间 中 所 有 可 能 的 假设 , 只 需 根据 算法 自身 的 特性 (稳定 性 ) 来 讨论 
假设 Lp 的 泛 化 误差 界 . 那么 , 稳定 性 与 可 学 习性 之 间 有 什么 关系 呢 ? 


首先 , 必须 假设 bym 一 0, 这 样 才 能 保证 稳定 的 学 习 算 法 & 具有 一 定 的 泛 


化 能 力 ， REMI UC FAR, 否则 可 学 习性 无 从 谈 起 为 便于 计算 , 我 
们 假定 B= mr 代入 式 (12. 58) 可 得 


(£, D) < X£, D) + - + (4+ M) (12.60) 


对 损失 函数 4, 若 学 习 算法 8 所 输出 的 假设 满足 经 验 损失 最 小 化 , 则 称 算法 
名 满足 经 验 风险 最 小 化 (Empirical Risk Minimization) 原则 , 简称 算法 是 ERM 
的 . 关于 学 习 算法 的 稳定 性 和 可 和 学习 性 , 有 如 下 定理 : 


定理 12.9 若 学 习 算法 g 是 ERM 且 稳 定 的 ， 则 假设 空间 XH 可 学 习 . 


证 明 Sg RIH 中 具有 最 小 泛 化 损 失 的 假设 ， Bp 
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— &(g,D) = min £(h, D). 


FH Hoeffding 不 等 式 (12.6) 可 知 , 4m > 3 ln $ H, 
(9, D) — (9, D) 


以 至 少 1 — 5/2 的 概率 成 立 . 令 式 (12.60) 中 





以 至 少 1 - 5/2 的 概率 成 立 . 从 而 可 得 
E(f, D) 7 L(g, D) < < K£, ) + ta = (as, D) = =) 
TeDe 


[e€ 


以 至 少 1 — 6 的 概率 成 立 . 定理 12.9 得 证 . 


O 对 上 面 这 个 定理 读者 也 许 会 纳 闽 , 为 什么 学 习 算法 的 稳定 性 能 导出 假设 空 
间 的 可 学 习性 ? 学 习 算法 和 假设 空间 是 两 码 事 呀 . 事实 上 , 要 注意 到 稳定 性 与 
假设 空间 并 非 无 关 , 由 稳定 性 的 定义 可 知 两 者 通过 损失 函数 4 联系 起 来 . 


12.7 阅读 材料 
[Valiant, 1984] 提出 PAC 学 习 ， 由 此 产生 了 “计算 学 习 理 论 ” 这 个 机 器 学 
习 的 分 支 领域 . [Kearns and Vazirani, 1994] 是 一 本 很 好 的 入 门 教材 . 该 领域 最 
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VC 维 的 名 字 就 来 自 两 


位 作者 的 姓氏 缩写 . 


第 12 章 ”计算 学 习 理 论 


重要 的 学 术 会 议 是 国际 计算 学 习 理 论 会 议 (COLT). 

VC 维 由 [Vapnik and Chervonenkis, 1971] 提出 , 它 的 出 现 使 研究 无 限 假 
设 空 间 的 复杂 度 成 为 可 能 . Sauer 引 理 由 于 [Sauer, 1972] 而 命名 , 但 [Vapnik 
and Chervonenkis, 1971] 和 [Shelah, 1972] 也 分 别 独 立地 推导 出 了 该 结果 . 本 


章 主要 讨论 了 二 分 类 问题 , 对 多 分 类 问题 , 可 将 VC 维 扩展 为 Natarajan 维 


[Natarajan, 1989; Ben-David et al., 1995]. 


Rademacher 复杂 度 最 早 被 [Koltchinskii and Panchenko, 2000] 引入 机 器 
学 习 , 由 [Bartlett and Mendelson, 2003] 而 受到 重视 . [Bartlett et al. , 2002] 提 
出 了 局 部 Rademacher 复杂 度 , 对 噪声 数据 可 推导 出 更 紧 的 泛 化 误差 界 . 


机 器 学 习 算法 稳定 性 分 析 方面 的 研究 始 于 [Bousquet and Elisseeff, 2002] 
的 工作 , 此 后 很 多 学 者 对 稳定 性 与 可 学 习性 之 间 的 关系 进行 了 讨论 , [Mukherjee 
et al., 2006] 和 [Shalev-Shwartz et al., 2010] 证 明了 ERM 稳定 性 与 ERM 可 学 
习性 之 间 的 等 价 关 系 ; 但 并 非 所 有 学 习 算 法 都 是 ERM 的 , 因此 [Shalev-Shwartz 
et al., 2010] 进一步 研究 了 AERM (Asymptotical Empirical Risk Minimization) 
稳定 性 与 可 学 习性 之 间 的 关系 . 

本 章 介绍 的 内 容 都 是 关于 确定 性 (deterministic) 学 习 问题 , 即 对 于 每 个 示 
Bll xz 部 有 一 个 确定 的 标记 y 与 之 对 应 ; 大 多 数 监 督学 习 都 属于 确定 性 学 习 间 题 . 
但 还 有 一 种 随机 性 (stochastic) 学 学 习 问 题 , 其 中 示例 的 标记 可 认为 是 属性 的 后 
验 概 率 函 数 , 而 不 再 是 简单 确定 地 属于 某 一 类 . 随机 性 学 习 问题 的 泛 化 误差 界 
分 析 可 参见 [Devroye et al., 1996]. 
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试 证 明 Jensen 不 等 式 (12.4). 

试 证 明 引 理 12.1. 

试 证 明 推 论 12.1. 

试 证 明 : Re 空间 中 线性 超 平面 构成 的 假设 空间 的 VC 维 是 + 1. 
试 计算 决策 树桩 假设 空间 的 VC 维 . 

试 证 明 : 决策 树 分 类 器 的 假设 空间 VC 维 可 以 为 无 穷 大 . 

试 证 明 : 最 近邻 分 类 器 的 假设 空间 VC 维 为 无 穷 大 

试 证 明 常 数 函 数 c 的 Rademacher 复杂 度 为 0，. 


给 定 函数 空间 Fi Fo, 试 证 明 Rademacher 复杂 度 Rm(Fi + F2) < 
Rm(Fi) + Rm(F2). 


考虑 定理 12.8, 试 讨 论 通 过 交叉 验证 法 来 估计 学 习 算 法 泛 化 能 力 的 合 
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小 故事 : 计算 学 习 理 论 之 父 莱 斯 利 . 维 利 昂 特 
计算 机 科学 的 绝 大 多 数 分 支 领域 中 都 既 有 理论 研究 , 也 
”有 应 用 研究 , 但 当 人 们 说 到 “理论 计算 机 科学 ”时 , 通常 
是 指 一 个 特定 的 研究 领域 TCS (Theoretical Computer 
Science), 它 可 看 作 计 算 机 科学 与 数学 的 交叉 , 该 领域 中 最 
著名 的 问题 是 “P?=NP” . 
计算 学 习 理 论 是 机 器 学 习 的 一 个 分 支 , 它 可 认为 是 机 器 学 习 与 理论 计算 机 
科学 的 交叉 . 提起 计算 学 习 理 论 , 就 必然 要 谈 到 英国 计算 机 科学 家 莱 斯 利 。 维 
Al Fie (Leslie G. Valiant, 1949— ). 维 利 昂 特 先 后 在 剑桥 大 学 国王 学 院 、 帝 
国 理工 学 院 学 习 , 1974 年 在 华威 大 学 获 计算 机 科学 博士 学 位 , 此 后 曾 在 卡 而 
基 梅 隆 大 学 、 利 北大 学 和 爱丁堡 大 学 任教 , 1982 年 来 到 哈佛 大 学 任 计 算 机 与 
应 用 数学 讲 席 教 授 . 1984 年 他 在 《ACM 通 讯 》 发 表 了 论文 “A theory of the 
learnable”. 这 篇 论文 首次 提出 了 PAC 学 习 , 从 而 开创 了 计算 学 习 理 论 的 研究 . 
2010 年 ACM 授予 维 利 郧 特 图 灵 奖 , 以 表彰 他 对 PAC 学 习 理 论 的 开创 性 贡献 ， 
以 及 他 对 枚 举 和 计算 代数 复杂 性 等 其 他 一 些 理论 计算 机 科学 问题 的 重要 贡献 . 
颁奖 词 特别 指出 , EA RE 1984 年 发 表 的 论文 创立 了 计算 学 习 理 论 这 个 研 
究 领域 , 使 机 器 学 习 有 了 坚实 的 数学 基础 , 扫 清 了 学 科 发 展 的 障碍 . 《ACM 新 
H WA “ACM Turing Award Goes to Innovator in Machine Learning” 为 
题 对 这 位 机 器 学 习 领域 首位 图 灵 奖 得 主 的 功绩 大 加 衰 扬 ， 
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例如 基于 训练 一 个 
SVM, 挑选 距离 分 类 超 平 
面 最 近 的 未 标记 样本 来 进 
行 查询 . 


即 尽量 少 向 瓜农 询问 


办 法 呢 ? 


第 13 章 “ 半 监督 学 习 


13.1 未 标记 样本 


我 们 在 丰收 季节 来 到 瓜 田 , 满 地 都 是 西瓜 , 瓜农 抱 来 三 四 个 瓜 说 这 都 是 好 
瓜 , 然后 再 指 着 地 里 的 五 六 个 瓜 说 这 些 还 不 好 , 还 需 再 生长 若干 天 . 基于 这 些 信 
A, 我 们 能 否 构 建 一 个 模型 , 用 于 判别 地 里 的 哪些 瓜 是 已 该 采摘 的 好 瓜 ” 显 然 ， 
可 将 瓜农 告诉 我 们 的 好 瓜 、 不 好 的 瓜分 别 作为 正 例 和 反例 来 训练 一 个 分 类 器 . 
然而 , 只 用 这 不 到 十 个 瓜 做 训练 样本 , 有 点 太 少 了 吧 ? 能 不 能 把 地 里 的 那些 瓜 
也 用 上 呢 ? 

形式 化 地 看 , 我 们 有 训练 样本 集 Di = {(£1, y1), (@2, y2),---, (1, yr}, 这 1 
个 样本 的 类 别 标记 ( 即 是 否 好 瓜 ) 已 知 , 称 为 “有 标记 ”(labeled) 样 本 ; 此 外 ,还 
有 Du = {Zip1 Lita, +++) Lipuh, | Ku, Ku PEAR ll Py 1 AA (BY AS AE 
否 好 瓜 ), BRA RRR” (unlabeled) MA. 着 直接 使 用 传统 监督 学 习 技术 , 则 
WA Di 能 用 于 构建 模型 ，D, 所 包含 的 信息 被 浪费 了 ; 另 一 方面 , £ Di BR), 
则 由 于 训练 样本 不 足 , 学 得 模型 的 泛 化 能 力 往往 不 佳 . 那么 , 能 否 在 构建 模型 的 
过 程 中 将 D 利用 起 来 呢 ? 

一 个 简单 的 做 法 , 是 将 Dy 中 的 示例 全 部 标记 后 用 于 学 习 . 这 就 相当 于 请 瓜 
农 把 地 里 的 瓜 全 都 检查 一 遍 , 告诉 我 们 哪些 是 好 瓜 , 哪些 不 是 好 瓜 , 然后 再 用 于 
模型 训练 . 显然 , 这 样 做 需 耗 费 瓜农 大 量 时 间 和 精力 . 有 没有 “便宜 ”一 点 的 


我 们 可 以 用 Di 先 训练 一 个 模型 , 拿 这 个 模型 去 地 里 挑 一 个 瓜 , 询问 瓜农 好 
不 好 , 然后 把 这 个 新 获得 的 有 标记 样本 加 入 Di 中 重新 训练 一 个 模型 , 再 去 挑 
JI, …… 这 样 , 车 每 次 都 挑 出 对 改善 模型 性 能 帮助 大 的 瓜 , 则 只 需 询 问 瓜 农 比较 
少 的 瓜 就 能 构建 出 比较 强 的 模型 , 从 而 大 幅 降 低 标 记 成 本 . 这 样 的 学 习 方 式 称 
为 “主动 学 习 ”(active learning), 其 目标 是 使 用 尽量 少 的 “查询 ”(query) 来 获 
得 尽量 好 的 性 能 . | 

BR, 主动 学 习 引入 了 额外 的 专家 知识 , 通过 与 外 界 的 交互 来 将 部 分 未 标 
记 样本 转变 为 有 标记 样本 . 车 不 与 专家 交互 , 没有 获得 额外 信息 , 还 能 利用 未 标 
记 样 本 来 提高 泛 化 性 能 吗 ? | 

答案 是 “Yes |” Ais AE APE? z 
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“ 流 形 ”概念 是 流 形 学 
” 习 的 基础 , 参见 10.5 节 . 


聚 类 假设 考虑 的 是 类 别 
标记 , 通常 用 于 分 类 任务 . 


这 个 基本 假设 . 


第 13 章 半 监 督学 习 


FKE, 未 标记 样本 虽 未 直接 包含 标记 信息 , 但 若 它们 与 有 标记 样本 是 从 
同样 的 数据 源 独立 同 分 布 采 样 而 来 , 则 它们 所 包含 的 关于 数据 分 布 的 信息 对 建 
立 模型 将 大 有 神 益 . 图 13.1 给 出 了 一 个 直观 的 例 示 . 若 仅 基 于 图 中 的 一 个 正 例 
和 一 个 反例 , 则 由 于 待 判别 样本 恰 位 于 两 者 正中 间 , 大 体 上 只 能 随机 猜测 ; 若 能 
观察 到 图 中 的 未 标记 样本 , 则 将 很 有 把 握 地 判别 为 正 例 . 


a “+”! 
@ 
待 判别 样本 AEE x 
L 未 标记 样本 、 © “ee @ 
F- O a .OO a S 
e @ 


图 13.1 未 标记 样本 效用 的 例 示 . 右边 的 灰色 点 表示 未 标记 样本 


让 学 习 器 不 依赖 外 界 交 互 、 上 自动 地 利用 未 标记 样本 来 提升 学 习性 能 , 就 是 
半 监 督学 习 (semi-supervised learning). 半 监 督学 习 的 现实 需求 非常 强烈 , 因为 
在 现实 应 用 中 往往 能 容易 地 收集 到 大 量 未 标记 样本 , 而 获取 “标记 ” 却 需 耗费 
人 力 、 物 力 . 例如 , 在 进行 计算 机 辅助 医学 影像 分 析 时 , 可 以 从 医院 获得 大 量 医 
学 影像 , 但 车 希望 医学 专家 把 影像 中 的 病灶 全 都 标识 出 来 则 是 不 现实 的 . “有 


标记 数据 少 , 未 标记 数据 多 ”这 个 现象 在 互联 网 应 用 中 更 明显 , 例如 在 进行 网 


页 推荐 时 需 请 用 户 标记 出 感 兴趣 的 网 页 , 但 很 少 有 用 户 愿 花 很 多 时 间 来 提供 标 
记 , 因此 , 有 标记 网 页 样本 少 , 但 互联 网 上 存在 无 数 网 页 可 作为 未 标记 样本 来 使 
用 . 半 监 督学 习 恰 是 提供 了 一 条 利用 “廉价 ”的 未 标记 样本 的 途径 。 

要 利用 未 标记 样本 , 必然 要 做 一 些 将 未 标记 样本 所 揭示 的 数据 分 布 信息 与 


类 别 标记 相 联系 的 假设 . 最 常见 的 是 “ 聚 类 假设 ”(cluster assumption), 即 假 


设 数据 存在 艇 结构, 同一 个 艇 的 样本 属于 同一 个 类 别 . 图 13.1 EAE PAR 
设 来 利用 未 标记 样本 , 由 于 待 预测 样本 与 正 例 样 本 通过 未 标记 样本 的 “撮合 ” 
聚 在 一 起 , 与 相对 分 离 的 反例 样本 相 比 , 待 判别 样本 更 可 能 属于 正 类 . 半 监 督 
学 习 中 为 一 种 常见 的 假设 是 “ 流 形 假设 ”(manifold assumption), 即 假设 数据 
分 布 在 一 个 流 形 结构 上 ,邻近 的 样本 拥有 相似 的 输出 值 . “邻近 ”程度 常用 “ 相 
似 ” 程 度 来 刻画 , 因此 , 流 形 假设 可 看 作 聚 类 假设 的 推广 , 但 流 形 假设 对 输出 值 
没有 限制 , 因此 比 聚 类 假设 的 适用 范围 更 广 , 可 用 于 更 多 类 型 的 学 习 任务 . 事实 
上 , 无 论 聚 类 假设 还 是 流 形 假设 , 其 本 质 都 是 “相似 的 样本 拥有 相似 的 输出 ” 
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EM 算法 参见 7.6 节 . 


半 监 督学 习 可 进一步 划分 为 纯 (pure) 半 监督 学 习 和 直 推 学 习 (transductive 
learning), 前 者 假定 训练 数据 中 的 未 标记 样本 并 非 待 预测 的 数据 , 而 后 者 则 假 
定 学 习 过 程 中 所 考虑 的 未 标记 样本 恰 是 行 预测 数据 , 学 习 的 目的 就 是 在 这 些 
未 标记 样本 上 获得 最 优 泛 化 性 能 . 换言之 , 纯 半 监督 学 习 是 基于 “开放 世界 ” 
假设 , 希望 学 得 模型 能 适用 于 训练 过 程 中 未 观察 到 的 数据 ; 而 直 推 学 习 是 基 
于 “封闭 世界 ”假设 , 仅 试 图 对 学 习 过 程 中 观察 到 的 未 标记 数据 进行 预测 . 
图 13.2 直观 地 显示 出 主动 学 习 、 纯 半 监 督学 习 、 直 推 学 习 的 区 别 . 需 注意 的 
是 , 纯 半 监督 学 习 和 直 推 学 习 常 合 称 为 半 监 督学 习 , 本 书 也 采取 这 一 态度 , 在 需 
专门 区 分 时 会 特别 说 明 . 
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( 纯 ) 半 监 督学 习 ——= 
rs paaa 
数据 G 


直 推 学 习 


攻 
i — 
末 标 元 模型 pri 
数据 





图 13.2 主动 学 习 、( 纯 ) 半 监督 学 习 、 直 推 学 习 


13.2 生成 式 方法 


生成 式 方法 (generative methods) 征 直接 基于 生成 式 模 型 的 方法 . 此 类 方法 
假设 所 有 数据 (无 论 是 否 有 标记 ) 都 是 由 同一 个 潜在 的 模型 “生成 ”的 . 这 个 假 
设 使 得 我 们 能 通过 潜在 模型 的 参数 将 未 标记 数据 与 学 习 目 标 联系 起 来 , 而 未 标 
记 数 据 的 标记 则 可 看 作 模 型 的 缺失 参数 , 通常 可 其 于 EM 算法 进行 极 大 似 然 信 
计 求 解 . 此 类 方法 的 区 别 主要 在 于 生成 式 模 型 的 假设 , 不 同 的 模型 假设 将 产生 


不 同 的 方法 . 
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给 定 样本 x, 其 真实 类 别 标记 为 ye V, HP Y = {1,2,...,N} 为 所 有 可 能 


人 假设 意味 着 泥 合成 。 的 类 别 . 假设 样本 由 高 斯 混合 模型 生成 , 且 每 个 类 别 对 应 一 个 高 斯 混合 成 分 . 换 
: 言 之 , 数据 样本 是 基于 如 下 概率 密度 生成 


2 一 工 
其 中 , 混合 系数 ui > 0, OX oi = 1; ple | wi, X1) 是 样本 z 属于 第 ;个 高 斯 混 
4 合成 分 的 概率 ; As MD 为 该 高 斯 混合 成 分 的 参数 
S flx) e 站 表示 模型 f 对 zw 的 预测 标记 , O € {1,2,...,N} 表示 样本 x 
隶属 的 高 斯 混合 成 分 . 由 最 大 化 后 验 概率 可 知 


f(@) = arg max p(y = j | æ) 
jEV 


N 
= arg max X ply = j,0 =i |£) 


JEY i= 
N g 
= arg max 5S pu=4|9=ix) pO =i]e); (13.2) 
JEY  i=1 an | 


) 
pi 


es (13.3) 
> a; > p(x | pi, Xi) 
为 样本 x 由 第 i 个 高 斯 混合 成 分 生成 的 后 验 概率 , p(y =7|O=i,02) Nah 
第 ;个 高 斯 混合 成 分 生成 且 其 类 别 为 了 的 概率 . 由 于 假设 每 个 闫 别 对 应 一 个 高 
斯 混合 成 分 , 因此 p(y = j | O = i, x) 仅 与 样本 z 所 属 的 高 斯 混合 成 分 6 有关， 
可 用 ply =7 | O = 7) RE. 不 失 一 般 性 , 假定 第 i 个 类 别 对 应 于 第 i 个 高 斯 泥 
合成 分 , 即 p(y = 了 | 9 =i) =1 SAMY i= 5, Bl p(y =7 |O =4) =0. 
不 难 发 现 , 式 (13.2) 中 估计 p(y = j | 9 =i, x) 需 知道 样本 的 标记 , 因此 仅 
能 使 用 有 标记 数据 ; 而 p(6 = i| x) 不 涉及 样本 标记 , 因此 有 标记 和 未 标记 数据 
均 可 利用 , 通过 引入 大 量 的 未 标记 数据 , 对 这 一 项 的 估计 可 望 由 于 数据 量 的 增 
长 而 更 为 准确 , 于 是 式 (13.2) 整 体 的 估计 可 能 会 更 准确 , 由 此 可 清楚 地 看 出 未 标 
” 记 数 据 何以 能 辅助 提高 分 类 模型 的 性 能 


给 定 有 标记 样本 集 D, IE Gane Y1), (xa, Y2), esii (x1, yi) } 和 未 标记 样本 集 
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Re havo Dy = {Xi41; DLI42)--- ltu}, l<u,l+u=m. 假设 所 有 样本 独立 同 分 布 ， H. 
as = 4 RER y » ANN sj -> S -Ha 、 
记 样 本 数 ， 虽 然 此 假设 实 O 都 是 由 uae ee 用 极 大 似 然 法 来 估计 高 斯 混合 模型 的 参数 


际 并 非 必须 ， {(@i, Mi, Ei) |1 < i < N}, Di U Dy 的 对 数 似 然 是 


u 
LL(D,UDy) = $ «(See (æ; | Mi, 2 et 加 


(£j Vi)ED: i=1 


rS In (> oi p(x; | Hi, > 42) 3 (13.4) 

| Tj; ED 
式 (13.4) 由 两 项 组 成 : 基于 有 标记 数据 Di 的 有 监督 项 和 基于 未 标记 数据 Du 的 

HM EO REZAS 无 监督 项 . 显然 , 高 斯 混合 模型 参数 估计 可 用 EM 算法 求解, 迭代 更 新 式 如 下 : 


EM 算法 参见 9.4 F. 


o ED: 根据 当前 模型 参数 计算 未 标记 样本 zj 属于 各 高 斯 混合 成 分 的 概率 


可 通过 有 标记 数据 对 模 Cortes) 
型 参数 进行 初始 化 Wi = eee . (13.5) 


’ 


> Qi- p(x; | Hi, Xi) 
izi 


M 步 : 基于 yu 更 新 模型 参数 , 其 中 1; 表示 第 i 类 的 有 标记 样本 数目 


Hi = i l DD Yjitj + > Be ; (13.6) 


zjEDy Tj;EDu (x; ,y3)EDiAyj=t 
aes t (5 
i = Vie ale li LG =) 
Tj; ED 
Ti; ED 


二 >». (£j T hi) (£j — _ ; (13.7) 


(a; ,yj)ED, Ayj=1 


i | 
以 上 过 程 不 断 迭 代 直至 收敛 , 即 可 获得 模型 参数 . 然后 由 式 (13.3) 和 (13.2) 就 能 
对 样本 进行 分 类 . 

将 上 述 过 程 中 的 高 斯 混合 模型 换 成 混合 专家 模型 [Miller and Uyar, 
1997]、 朴 素 贝 叶 斯 模型 [Nigam et al, 2000] 等 即 可 推导 出 其 他 的 生成 式 半 
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监督 学 习 方法 . 此 类 方法 简单 , 易于 实现 , 在 有 标记 数据 极 少 的 情形 下 往往 比 其 
他 方法 性 能 更 好 . 然而 , 此 类 方法 有 有 一 个 关键 : 模型 假设 必须 准确 , 即 假设 的 生 
成 式 模 型 必须 与 真实 数据 分 布 吻合 ; 否则 利用 未 标记 数据 反倒 会 降低 泛 化 性 能 
[Cozman and Cohen, 2002]. tite A), 在 现实 任务 中 往往 很 难事 先 做 出 准确 
的 模型 假设 , 除非 拥有 充分 可 靠 的 领域 知识 ， 


13.3 半 监 督 SVM 


$ HAS PE Sc RF fn] Be AL (Semi-Supervised Support Vector Machine， 人 简称 
S3VM) 是 文 持 癌 量 机 在 半 监 督学 习 上 的 推广 .在 不 考虑 未 标记 样本 时 , 3 
持 同 量 机 试图 找到 最 大 间 隐 划分 超 平面 , 而 在 考虑 未 标记 样本 后 , S3VM 试 
图 找到 能 将 两 类 有 标记 样本 分 开 , 且 罕 过 数据 低 密 上 度 区 域 的 划分 超 平面 , 如 
图 13.3 Pra, 这 里 的 基本 假设 定 “ 低 密度 分 隐 ”(low-density separation), 显 
IR, 这 是 案 类 假设 在 考虑 了 线性 超 平面 划分 后 的 推广 . 


S3VM X] 28 -F A 





SVM 划分 超 平 面 


图 13.3 半 监 督 支持 向 量 机 与 低 密度 分 隔 (“二 ” “一 ”分 别 表 示 有 标记 的 正 、 反 例 ， 
灰色 点 表示 未 标记 样本 ) 


$ in EF SCF TA] BL He E 的 je TSVM (Transductive Support Vector 
Machine) [Joachims，1999]， 与 标准 SVM 一 样 , TSVM 也 是 针对 二 分 类 问题 
的 学 习 方 法 . TSVM 试图 考虑 对 未 标记 样本 进行 各 种 可 能 的 标记 指派 (label 
assignment), 即 和 尝试 将 每 个 未 标记 样本 分 别 作 为 正 例 或 反例 , 然后 在 所 有 这 些 
结果 中 , 寻求 一 个 在 所 有 样本 (包括 有 标记 样本 和 进行 了 标记 指派 的 未 标记 样 
本 ) 上 间隔 最 大 化 的 划分 超 平面 . 一 旦 划分 超 平 面 得 以 确定 , 未 标记 样本 的 最 终 


标记 指派 束 是 其 预测 结果 . 
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类 别 不 平衡 问题 及 
式 (13.10) 的 缘由 见 3.6 节 . 
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形式 化 地 说 ， 给 定 D, EE {(x1, y1), (£2, Y2), “ (a1, yi)} 和 D, = {£i+1, 
L42,- ap en A 其 中 Yi E {—1, +1}, l< u, [+u=m. TSVM 的 学 习 目标 是 
为 Dy 中 的 样本 给 出 预测 标记 颖 二 (Gii, Di2- -eo Gitu) i €{-1, +1}, 使 得 


l m 

. 1 

win, ll 十 CD &+Cu Dd) & | (13.9) 
ria i=l ?一 [十 1 


s.t. y(wia; +b) >1-—&, i=1,2,...,1, 
j(wia, +b) >1—-&, i=14+1,14+2,...,m, 


人 


其 中 , (w, b) 确定 了 一 个 划分 超 平面 ; & 为 松弛 向 量 , & (i = 1,2,...,) 对 应 于 有 
标记 样本 , & (i =14+1,14+2,...,m) 对 应 于 未 标记 样本 ; O 与 Cu 是 由 用 户 指 
定 的 用 于 平衡 模型 复杂 度 、 有 标记 样本 与 未 标记 样本 重要 程度 的 折 中 参数 . 

显然 , 尝试 未 标记 样本 的 各 种 标记 指派 是 一 个 穷 举 过 程 , 仅 当 未 标记 样本 
很 少时 才 有 可 能 直接 求解 . 在 一 般 情 形 下 , 必须 考虑 更 高 效 的 优化 策略 . 

TSVM 采用 局 部 搜索 来 迭代 地 寻找 式 (13.9) 的 近似 解 ， 具体 来 说 , 它 先 利 
用 有 标记 样本 学 得 一 个 SVM, 即 忽略 式 (13.9) 中 关于 Du 与 乡 的 项 及 约束 . 然 
后 , 利用 这 个 SVM 对 未 标记 数据 进行 标记 指派 (label assignment), 即将 SVM 
预测 的 结果 作为 “ 伪 标 记 ”(pseudo-label) 赋 予 未 标记 样本 . 此 时 当成 为 已 知 ， 
将 其 代入 式 (13.9) 即 得 到 一 个 标准 SVM 问题 , 于 是 可 求解 出 新 的 划分 超 平面 和 
松弛 向 量 ; 注意 到 此 时 未 标记 样本 的 伪 标 记 很 可 能 不 准确 , 因此 Cu 要 设置 为 比 
Ci 小 的 值 , 使 有 标记 样本 所 起 作用 更 大 . 接 下 来 , TSVM 找 出 两 个 标记 指派 为 
异类 且 很 可 能 发 生 错 误 的 未 标记 样本 , 交换 它们 的 标记 , 再 重新 基于 式 (13.9) 求 
解 出 更 新 后 的 划分 超 平面 和 松弛 向 量 , 然后 再 找 出 两 个 标记 指派 为 异类 且 很 可 
能 发 生 错 误 的 未 标记 样本 ，……: 标记 指派 调整 完成 后 , 逐渐 增 大 C, 以 提高 未 标 
记 样 本 对 优化 目标 的 影响 , 进行 下 一 轮 标记 指派 调整 , BCL, = C 为止. 此 时 
求解 得 到 的 SVM 不 仅 给 未 标记 样本 提供 了 标记 , 还 能 对 训练 过 程 中 未 见 的 示 
例 进行 预测 . TSVM 的 算法 描述 如 图 13.4 所 示 . 

在 对 未 标记 样本 进行 标记 指派 及 调整 的 过 程 中 , 有 可 能 出 现 类 别 不 平衡 问 
题 , 即 某 类 的 样本 远 多 于 另 一 类 , 这 将 对 SVM 的 训练 造成 困扰 . 为 了 减轻 类 别 
不 平衡 性 所 造成 的 不 利 影响 , 可 对 图 13.4 的 算法 稍 加 改进 : 将 优化 目标 中 的 Cu 
项 拆 分 为 C+ 与 C7 两 项 , 分 别 对 应 基于 伪 标 记 而 当 作 正 、 反 例 使 用 的 未 标记 


样本 , 并 在 初始 化 时 令 
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此 时 人 为 已 知 . 


ĝi 与 9; 进行 调整 . 


提高 未 标记 样本 的 影响 ， 


We Sk ME GE WAR 


[Joachims, 1999]. 


阅 
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输入 : 有 标记 样本 集 Dj = {(x1, y1); (za2,y2)) 245 (Œ, Y1) }; 
on SA sy 
折 中 参数 Cl, C 


:用 D; 训练 一 个 SVM;; . l 
A a 对 Du 中 样本 进行 预测 SE = (Gis, 办 2 从 + 
while C. < Cı do 
基于 Di, Du, 0, Ci, Cu 求解 式 (13.9), 得 到 (w, b), £; 
while {i,j | (Hy < 0) A (& > 0) A (Ej > 0) A(G +E > 2)} do 
=> = hers 


基于 Di Dis 9, Ci, Cy 重新 求解 式 (13.9), 得 到 (w, b), € 
10: end while 

li: Cy =min{2Cy, Ci} 

12: end while 


输出 : 未 标记 样本 的 预测 结果 : GY = (iti, Hit -a Ditu) 


He 


er ee 


13.4 TSVM 算法 


=... (13.10) 
u+ 


其 中 w+ 与 u 为 基于 伪 标 记 而 当 作 正 、 反 例 使 用 的 未 标记 样本 数 . 

在 图 13.4 算法 的 第 6-10 TF, 阁 存 在 一 对 未 标记 样本 zi 与 zi， 其 标记 
指派 各 与 纺 不同, 且 对 应 的 松弛 变量 满足 & + & > 2, 则 意味 着 从 与 盆 很 可 
能 是 错误 的 , 需 对 二 者 进行 交换 后 重新 求解 式 (13.9), 这 样 每 轮 迁 代 后 均 可 使 


. 式 (13.9) 的 目标 函数 值 下 降 . 、 


显然 , 搜寻 标记 指派 可 能 出 错 的 每 一 对 未 标记 样本 进行 调整 , 是 一 个 涉 
及 巨大 计算 开销 的 大 规模 优化 问题 . 因此 , 半 监 督 SVM 研究 的 一 个 重点 是 
如 何 设计 出 高 效 的 优化 求解 策略 , 由 此 发 展 出 很 多 方法 , 如 基于 图 核 (graph 
kernel) 函 数 梯 度 下 降 的 LDS [Chapelle and Zien, 2005]、 基 于 标记 均值 估计 的 
meanS3VM [Li et al., 2009] 等 . | 


13.4 图 半 监 督学 习 


给 定 一 个 数据 集 ， 我 们 可 将 其 映射 为 一 个 图 狼 据 集中 每 个 样本 对 应 于 图 
中 一 个 结 点 , 若 两 个 样本 之 间 的 相似 度 很 高 (或 相关 性 很 强 ), 则 对 应 的 结 点 之 间 
存在 一 条 边 , 边 的 “强度 ”(strength) 正 比 于 样本 之 间 的 相似 度 ( 或 相关 性 ). 我 


们 可 将 有 标记 样本 所 对 应 的 结 点 想象 为 染 过 色 ， 而 未 标记 样本 所 对 应 的 结 点 尚 
ww ai bbt. com DDNNDDDD 
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能 量 函 数 最 小 化 时 即 得 
到 最 优 结果 . 


W 为 对 称 和 矩阵 ,因此 di 
RAW 第 1i 列 元 素 之 和 . 
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未 染色 . 于 是 , 半 监 督学 习 就 对 应 于 “颜色 ”在 图 上 扩散 或 传播 的 过 程 . 由 于 一 
个 图 对 应 了 一 个 矩阵 , 这 就 使 得 我 们 能 基于 矩阵 运算 来 进行 半 监督 学 习 算法 的 ， 
推导 与 分 析 . 


给 定 Di = {(£1, 91), (22, Y2); <- <, (er, 0) } 和 Dy = {£141 Pit2,..., Tipu), 
l<uliu=m. 我 们 先 基于 Di U Du 构建 一 个 图 G = (V, E), HPA 
Æ V = {x1,...,%,%41,---, 2x}, WHE E> AS 38 All $2 BE (affinity 
matrix), 常 基于 高 斯 函数 定义 为 


| 一 ||z; 一 zj 有 2 7 ，， 
exp ( 272 过 4 天 了 13 11 
(W)ij = (13.11) 


0, otherwise , 
其 中 i,7 € {1,2,... m}, o > 0 是 用 户 指定 的 高 斯 函数 带宽 参数 . 


”假定 从 图 G = (V, E) 将 学 得 一 个 实 值 函数 f: Y 一 R, 其 对 应 的 分 类 规则 
为 : yi = sign(f (zi)), yi € {一 1, 十 1}. 直观 上 看 , 相似 的 样本 应 具有 相似 的 标记 ， 
于 是 可 定义 关于 了 的 “能 量 函数 ”(energy function) [Zhu et al., 2003): 


1)=3 DD Ws (Fes) - Fe) 


?一 1 7 二 1 
; Eror D f’ (æ;) — >> (Wig f(a) f 3 
二 1 i=1 j=1 
-Faf Zi) -5 X (W Jij f (xi) f Tj) 
i=1 ?一 1 j=1 
-= fTD-W)f, o (83.12) 


Hef = GF), A = Cee fe = (Fe); 
f (e142); ---3 了 (zi4wu)) 分 别 为 函数 上 在 有 标记 样本 与 未 标记 样本 上 的 预测 结果 ， 
D = diag(di, d2,- . , dipu) 是 一 个 对 角 和 矩阵, 其 对 角 元 素 di = TM (W) iz AE 
阵 W 的 第 i 行 元素 之 和 . 


有 具有 最 小 能 量 的 函数 上 在 有 标记 样本 上 满足 zi) = yw (i = 1,2,...,0), 
在 未 标记 样本 上 满足 Af = 0, 其 中 A = D -W AMÉM (Laplacian 


| we g A Fete ` SZ F -一 一 > W W 
matrix). 以 第 1 行 与 第 1 列 为 界 , 采用 分 块 矩阵 表示 方式 : W = Mo | 
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D = i "i 则 式 (13.12) 可 重 写 为 


| Ou uu 


eT pT ||Du Ow} |Wu Wu fi 
EGA) =r fa) th nel y wa) H (13.13) 
= fi (Du — Wn) fi - ofl Wut + TD Wuu)fu- (13.14) 


由 SD = 0 可 得 
Ja = (Duu = Ww) Wulf, ， (13.15) 


Ay 


P = DW = p i ir js we 
Ou DD Wu Ww 
pt nia 


= (13.16) 
Diu Wu Di Wu | 


BI Puu = Dz W uu, Pw = Da W u, 则 式 (13.15) 可 重 写 为 


Su = (Duu (I = Dy) Wu)) Wafi 
= (I — Diu Wu) Dy Wuf 


= (L — Pw) Puf. (13.17) 


于 是 , 将 Di 上 的 标记 信息 作为 fi = (yisyes-.-sy) 代入 式 (13.17), 即 可 利用 求 

得 的 fa 对 未 标记 样本 进行 预测 
上 面 描述 的 是 一 个 针对 二 分 类 问题 的 标记 传播 (label propagation) 方 法 , 下 

面 来 看 一 个 适用 于 多 分 类 问题 的 标记 传播 方法 [Zhou et al., 2004]. | 


假定 y; E€ V, HHT DUD 构建 一 个 图 G = (VE) 其 中 结 点 
RV = {w1,...,@,..., Biyuh WR E AMY W 仍 使 用 式 (13.11)， 对 
AERE D = diag(di,do,...,ditu) 的 对 角 元 素 di = Vw). ZR 
A (L+ u) x |V| HSE te ie MEF = (FT FS,...,FL,)', 其 第 i 行 元 素 


F; = (Œ), (Fiz,..., (Fo aay) 为 示例 zi; 的 标记 问 量 , 相应 的 分 类 规则 为 : 


Yi = arg MAX, <j <ly\(F)aj- 


下 二 将 下 初始 化 为 
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1, iffd<i<l =j); 
so- sai ainsi (13.18) 


0, otherwise. 


显然 , Y 的 前 1 行 就 是 1 个 有 标记 样本 的 标记 向 量 . 
基于 W 构造 一 个 标记 传播 矩阵 8 = D-3WD-3, 其 中 D- = 
dite (He Jer zie), 于 是 有 远 代 计算 式 


F(t+1)= SEO +(1—a)Y;: (13.19) 


其 中 o € (0,1) 为 用 户 指定 的 参数 , 用 于 对 标记 传播 项 SEE 与 初始 化 项 YY 的 
重要 性 进行 折 中 . 基于 式 (13.19) 迁 代 至 收敛 可 得 


F* = lim F(t) = (1 - o)(I — aS)'y, (13.20) 


由 F* 可 获得 D 中 样本 的 标记 ($141, Mtz- - - , lhu). 算法 描述 如 图 13.5 所 示 . 


输入 : 有 标记 样本 集 D, = {(£1, y1), (£2, Y2), e.. (x1, y1)}; 
未 标记 样本 集 Dy = {X141, 仑 [十 2 . ..) Piru}; 


构图 参数 o; 
折 中 参数 a. 
过 程 : 
1: 基于 式 (13.11) 和 参数 o 得 到 W; 
2: 基于 W 构造 标记 传播 矩阵 S = D-?WD"?; 
3: 根据 式 (13.18) 初 始 化 F (0); 
4: t=0; 
5: repeat 
6: F(t+1) =aSF(t)+(1—o)Y; 
7 t=t+I1 
8: until ACME F* 
9: for i =l +1,1 +2,...,l +u do 


10: y; = arg max, gjy (E* Jij 
11: end for 
输出 : 未 标记 样本 的 预测 结果 : G = (141, Di2- Ditu) 


13.5 和 迭代 式 标记 传播 算法 


事实 上 , 图 13.5 的 算法 对 应 于 正则 化 框架 [Zhou et al., 2004 














l+u 2 
1 1 
min 5 > (W)y ari OF Sn? = Yi (13.21) 
(5 1 y V T {) i=1 
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其 中 内 > 0 为 正则 化 参数 . 4 u= 二 2 时 , 式 (13.21) 的 最 优 解 恰 为 图 13.5 算法 
的 迭代 收敛 解 F*. | 

式 (13.21) 右 边 第 二 项 是 迫使 学 得 结果 在 有 标记 样本 上 的 预测 与 真实 标记 
尽 可 能 相同 , 而 第 一 项 则 迫使 相近 样本 具有 相似 的 标记 , 显然 , 它 与 式 (13.12) 都 
是 基于 半 监 督学 习 的 基本 假设 , 不 同 的 是 式 (13.21) 考 虑 离散 的 类 别 标记 , 而 
式 (13.12) 则 是 考虑 输出 连续 值 . | | 

图 半 监 督学 习 方法 在 概念 上 相当 清晰 , A Rot a I OT 
来 探索 算法 性 质 . 但 此 类 算法 的 缺陷 也 相当 明显 . 首先 是 在 存储 开销 上 , 车 样 
本 数 为 Olm), 则 算法 中 所 涉及 的 矩阵 规模 为 O(m2), 这 使 得 此 类 算法 很 难 直接 
处 理 大 规模 数据 ; 另 一 方面 , 由 于 构图 过 程 仅 能 考虑 训练 样本 集 , 难以 判 知 新 样 
本 在 图 中 的 位 置 , 因此 , 在 接收 到 新 样本 时 , 或 是 将 其 加 入 原 数据 集 对 图 进行 重 
构 并 重新 进行 标记 传播 , 或 是 需 引 入 额外 的 预测 机 制 , 例如 将 Di 和 经 标记 传播 ， 
后 得 到 标记 的 D 合并 作为 训练 集 , 另外 训练 一 个 学 习 器 例如 支持 向 量 机 来 对 
新 样本 进行 预测 . | 


13.5 基于 分 歧 的 方法 

与 生成 式 方法 、 半 监督 SVM、 图 半 监 督学 习 等 基于 单 学 习 器 利用 未 标记 
数据 不 同 , 基于 分 歧 的 方法 (disagreement-based methods) 使 用 多 学 习 器 , 而 学 
JALER T” (disagreement) XJ RRCA AEREE. 

“协同 训练 ”(co-training) [Blum and Mitchell, 1998] 是 此 类 方法 的 重要 
RR, 它 最 初 是 针对 “多 视图 ”(multi-view) 数 据 设计 的 , 因此 也 被 看 作 “ 多 视 
图 学 习 ”(multi-view learning) 的 代表 . 在 介绍 协同 训练 之 前 , 我 们 先 看 看 什么 
是 多 视图 数据 . | | | 

在 不 少 现实 应 用 中 , 一 个 数据 对 象 往往 同时 拥有 多 个 “属性 集 ”(attribute 
set), 每 个 属性 集 就 构成 了 一 个 “视图 ”(view). 例如 对 一 部 电影 来 说 , 它 拥 有 
多 个 属性 集 : 图 像 画 面 信 息 所 对 应 的 属性 集 、 声 音信 息 所 对 应 的 属性 集 、 字 幕 
信息 所 对 应 的 属性 集 、 甚 至 网 上 的 宣传 讨论 所 对 应 的 属性 集 等 . 每 个 属性 集 都 


可 看 作 一 个 视图 . 为 简化 讨论 , 暂且 仅 考 虑 图 像 画 面 属性 集 所 构成 的 视图 和 声 


音 属性 集 所 构成 的 视图 . FE, 一 个 电影 片段 可 表示 为 样本 ((z1, 22), y), 其 中 
zi 是 样本 在 视图 ; 中 的 示例 , 即 基于 该 视图 属性 描述 而 得 的 属性 向 量 , 不 妨 假 
定 co! 为 图 像 视图 中 的 属性 向 量 , 2? 为 声音 视图 中 的 属性 向 量 ; y 是 标记 , 假定 


是 电影 的 类 型 , 例如 “动作 片 ”、“ 爱 情 片 ”等 . ((ar*, ae”), y) 这 样 的 数据 就 是 


多 视图 数据 . a E es 
waw ai bbt. com oOog0og0og0og0gp 
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弱 分 类 器 参见 第 8 章 . 


例如 电影 画面 与 声音 显 
然 不 会 是 条 件 独立 的 . 


单 视 图 数据 即 仅 有 一 个 
属性 集合 的 常见 数据 . 
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假设 不 同 视图 具有 “ 相 容 性 ”(compatibility), 即 其 所 包含 的 关于 输出 空 
间 2 的 信息 是 一 致 的 : 令 y1 表示 从 图 像 画 面 信息 判别 的 标记 空间 , V 表示 从 
声音 信息 判别 的 标记 至 =a, MEY = V! =, 例如 两 者 都 是 { 爱 情 片 ,动作 片 }， 
而 不 能 是 VY! = {ZIE}, 动作 片 } 而 YV? = {文艺 片 ,惊悚 片 }. 在 此 假设 下 , 显 式 


地 考虑 多 视图 有 很 多 好 处 . 仍 以 电影 为 例 , 某 个 片段 上 有 两 人 对 视 , MERRE 


面 信息 难以 分 辩 其 类 型 , 但 此 时 车 从 声音 信息 听 到 “我 爱 你 ”, 则 可 判断 出 该 
片段 很 可 能 属于 “爱情 片 ”; 另 一 方面 , 若 仅 凭 图 像 画面 信息 认为 “可 能 是 动 
作 片 ”, 仅 赁 声音 信息 也 认为 “可 能 是 动作 片 ”, 则 当 两 者 一 起 考虑 时 就 有 很 
大 的 把 握 判 别 为 “动作 片 ”. 显然 , 在 “ 相 容 性 ”基础 上 , 不 同 视图 信息 的 “ 互 
外 性 ”会 给 学 习 占 的 构建 市 来 很 多 便利 . 


协同 训练 正 是 很 好 地 利用 了 多 视图 的 “ 相 容 互补 性 ”. 假设 数据 拥有 两 个 
充分 (suffcient) 且 条 件 独立 视图 , “充分 ”是 指 每 个 视图 都 包含 足以 产生 最 优 
学 习 器 的 信息 , “条 件 独立 ” 则 是 指 在 给 定 类 别 标记 条 件 下 两 个 视图 独立 . 在 
此 情形 下 , 可 用 一 个 简单 的 办 法 来 利用 未 标记 数据 : 首先 在 每 个 视图 上 基于 有 
标记 样本 分 别 训练 出 一 个 分 类 器 , 然后 让 每 个 分 类 器 分 别 去 挑选 自己 “最 有 把 
握 的 ”未 标记 样本 赋予 伪 标 记 , 并 将 伪 标 记 样本 提供 给 另 一 个 分 类 器 作为 新 
增 的 有 标记 样本 用 于 训练 更 新 …… 这 个 “互相 学 习 、 共 同 进步 ”的 过 程 不 断 
迭代 进行 , 直到 两 个 分 类 器 都 不 再 发 生变 化 , 或 达到 预先 设 定 的 迭代 轮 数 为 止 
算法 描述 如 图 13.6 所 示 . 若 在 每 轮 学 习 中 都 考察 分 类 器 在 所 有 未 标记 样本 上 
的 分 类 置信 度 , 会 有 很 大 的 计算 开销 , 因此 在 算法 中 使 用 了 未 标记 样本 缓冲 池 
[Blum and Mitchell, 1998]. 分 类 置信 和 度 的 估计 则 因 基 学 习 算法 £ 而 异 , 例如 大 
使 用 朴素 贝 叶 斯 分 类 器 , 则 可 将 后 验 概率 转化 为 分 类 置信 度 ; 若 使 用 支持 向 量 
机 , 则 可 将 间隔 大 小 转化 为 分 类 置信 度 . 


协同 训练 过 程 虽 简单 , 但 令 人 惊讶 的 是 , 理论 证 明显 示 出 , 若 两 个 视图 充分 
且 条 件 独 立 , 则 可 利用 未 标记 样本 通过 协同 训练 将 弱 分 类 器 的 泛 化 性 能 提升 到 
任意 高 [Blum and Mitchell, 1998]. 不 过 , 视图 的 条 件 独 立 性 在 现实 任务 中 通常 
很 难 满足 , 因此 性 能 提升 幅度 不 会 那么 大 , 但 研究 表明 , 即便 在 更 弱 的 条 件 下 ， 
协同 训练 仍 可 有 效 地 提升 弱 分 类 器 的 性 能 [周志 华 , 2013]. 


协同 训练 算法 本 身 是 为 多 视图 数据 而 设计 的 , 但 此 后 出 现 了 一 些 能 在 单 视 
图 数据 上 使 用 的 变 体 算法 ， 它们 或 是 使 用 不 同 的 学 习 算 法 [Goldman and Zhou, 


2000], 或 使 用 不 同 的 数据 采样 [Zhou and Li, 2005b], 甚至 使 用 不 同 的 参数 设置 


[Zhou and Li, 2005a] 来 产生 不 同 的 学 习 器 , 也 能 有 效 地 利用 未 标记 数据 来 提升 
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zi 的 上 标 仅 用 于 指 代 两 
个 视图 , 不 表示 序 关 系 , Bp 


bE Ax 缓冲 池 大 小 Sj 
eens 每 轮 挑选 的 正 例 数 p; 
令 p,n K s. 每 轮 挑选 的 反例 数 n ; 
基 学 习 算 法 L; 
学 习 轮 数 工 . 
过 程 : 
1: 从 D 中 随机 抽取 s 个 样本 构成 缓冲 池 万 。; 
. 2° Dy Dy N Das 
初始 化 每 个 视图 上 的 有 3: for 7 =1,2 do | 
eS 4: Di = {æf ys) | (x1, 22%), yi) € Di}; 
5: end for 
6: fort =1,2,...,T do 
7: for 7=1,2 do 
在 视图 j 上 用 有 标记 样 8: h; + £(D’); 
a ”9: BBE Ay HE Di = {zi | (x, ni?) < E 也 。} 上 的 分 类 置信 度 , 挑选 p 个 正 例 
置信 和 度 最 高 的 样本 Do C Ds 了 个 反例 置信 度 最 高 的 样本 Dn C Ds; 
10: HH Di 生成 伪 标 记 正 例 | D3-i = {(æ} 1, +1) | a} € D$}; 
11: 由 Di 生成 伪 标 记 反 例 D3- i = {(z 1,—1) | a? € Dİ}; 
12: Ds = Ds \ (Dy U Dn); 
13: end for 
14: if hy,he FARRER t then 
15: break 
16: else 
| 17: for j = 1,2 do 
扩充 有 标记 数据 集 . 18: $DI=DIU (By U bi); 
19: end for 
20: 从 Dy 中 随机 抽取 2p + 2n 个 样本 加 入 Ds 
21: endif 
22: end for 
输出 : 分 类 器 hz, he 
13.6 协同 训练 算法 
由 此 RAR MA ZERE BENAS), 即 可 通过 相互 提供 人 标记 样本 的 方式 来 提升 江 
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输入 : 有 标记 样本 集 Di = {((x1, £3), y1). - (21, #7), 1)}》; 
未 标记 样本 集 Du SAGs Tee ee (thea Liu; 


化 性 能 aes , 2013]; 不 同 视 图 、 不 同 算 法 、 不 同 数据 采样 、 不 同 参数 设置 


基于 分 歧 的 方法 只 需 采用 合适 的 基 学 习 器 ,就 和 6 较 少 受 到 模型 假设 、 损 失 


函数 非 凸 性 和 数据 规模 问题 的 影响 , 学 习 方法 简单 有 效 、 理 论 基 础 相对 坚实 、 
适用 范围 较为 广泛 . 为 了 使 用 此 类 方法 , 需 能 生成 具有 显著 分 上 层 、 性 能 尚 可 的 
多 个 学 
并 不 容易 , 需 有 巧妙 的 设计 . 


习 器 , 但 当 有 标记 样本 很 少 , 尤其 是 数据 不 具有 多 视图 时 , 要 做 到 这 一 点 
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初始 化 kk 个 空 徐 . 


更 新 均值 向 量 . 
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13.6 半 监 督 聚 类 


“， 聚 类 是 一 种 典型 的 无 监督 学 习 任务 , 然而 在 现实 聚 类 任务 中 我 们 往往 能 
得 一 些 额 外 的 监督 信息 , 于 是 可 通过 半 监 督 聚 类 (semi-supervised clustering) 来 
利用 监督 信息 以 获得 更 好 的 聚 类 效果 . 
聚 类 任务 中 获得 的 监督 信息 大 致 有 两 种 类 型 ， 第 一 种 类 型 是 “ 必 连 ” 
(must-link) 5 “Zi” (cannot-link) 约束 , 前 者 是 指 样本 必 属 于 同一 个 簇 , 后 
者 是 指 样本 必 不 属于 同一 个 簇 ; 第 二 种 类 型 的 监督 信息 则 是 少量 的 有 标记 样本 . 
约束 均值 (Constrained k-means) 算法 [Wagstaff et al., 2001] 是 利用 第 
一 类 监督 信息 的 代表 . 给 定 样本 集 D = {zx1, 22,.…,zZm} 以 及 “ 必 连 ”关系 


输入 : PEASE D = {21,22,...,2m}; 
必 连 约束 集合 M ; 
MEARE C ; 
KARR k. 


过 程 : 

1: 从 刀 中 随机 选取 大 个 样本 作为 初始 均值 问 量 {Aa Ha ,RE 

2: repeat 

3 .C7 k); 

4 for 1=1,2,...,mdo 

5: 计算 样本 mi 与 各 均值 向 量 Hj a< < j <S k) 的 距离 : dij = ||æ:; 一 pll2 ; 
6: tl 

7 en d-i g: 

8 while 一 is-merged do 


9: 基于 KC 找 出 与 样本 z; FRA RIN: r= arg MIN sex dij ; 

10: 检测 将 z; ARKI Cr 是 否 会 违背 M 与 C 中 的 约束 ; 
it: if ~ is_voilated then 

12: Ce = CA Ho 

13: is_merged=true 

14: else 

15: K=K\{r}; 

16: if K = Ø then 

17: break 并 返回 错误 提示 

18: end if 

19: end if 

20: end while 

21: end for 

22: for7=1,2,...,k do 

23: Mi = [eq eec; T: 

24: end for 


25: until 均值 向 量 均 未 更 新 | 
输出 : 簇 划 分 {C1, Co, teats Cr} 


13.7 约束 天 均值 算法 
ww ai bbt. com 000000 
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Ta M 和 “a” 关系 集合 CG (Ew) EM 表示 Li 5 Lij Ws ja T EA, 

bP ELOAIP. (xw) EC 表示 zi 与 wj GRETE. 该 算法 是 天 均值 算法 的 扩展 , CER 
类 过 程 中 要 确保 人 At 与 C 中 的 约束 得 以 满 在 , 否则 将 返回 错误 提示 , 算法 如 图 
13.7 所 示 . 


JL p.202 表 9.1. 以 西瓜 数据 集 4.0 为 例 , 令 样本 z4 与 £, £12 与 £20, t14 与 17 LAFE 
必 连 约束 ,zs 与 £21, Z13 与 L23, L19 与 x23 之 间 存 在 勿 连 约束 , R 





M = 1 (aa £25), (£25, LA), (£12, £20), (£20, £12), (x14, £17), (£17, £14)}, 


C= (£2, £21), (Toi; wa); CART T23), (£23, £13), (219, £3), (£23, £19) }. 





0.6 0.7 0.8 0.9 4 0.2 0.3 0.4 


4 0.2 0.3 0.4 


0.5 | 
密度 
(c) 第 3 轮 和 迭代 后 O (D ARRE 


13.8 西瓜 数据 集 4.0 上 约束 上 均值 算法 ( = 3) 在 各 轮 选 代 后 的 结果 . 样本 点 与 
均值 向 量 分 别 用 “e@” 与 “4” 表示 , 必 连 约束 和 勿 连 约束 分 别 用 实 线段 与 虚线 段 表示 , 红 
色 虚 线 显 示 出 徐 划 分 . 
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显示 出 约束 天 均值 算法 在 不 同 迭 代 轮 数 后 的 聚 类 结果 . 经 5 ATU E ll E 
不 再 发 生变 化 (与 第 4 RRRA), 于 是 得 到 最 络 聚 类 结 采 


C1 = {£3, £5, £7, L9, L13, L14, L16, L17, T21 ¥; 
C2 = { x6, “8,210,011, 12, 215, £18, £19, T20}; 


C3 = {£1, £2, L4, L22, L23, L24, L25; £26, T27, L28, L29, T30}. 


此 处 样本 标记 指 徐 标 第 二 种 监督 信息 是 少量 有 标记 样本 . 给 定 样本 集 D = {ar1,22,..., Em}, 
Reuateriabel 不 是 类别 假定 少量 的 有 标记 样本 为 8 = UEa S) C D, RF S; 六 wy 为 隶属 于 第 了 个 于 
类 簇 的 样本 . 这 样 的 监督 信息 利用 起 来 很 容易 : 直接 将 它们 作为 “种 子 ”, 用 
它们 初始 化 天 均值 算法 的 天 个 聚 类 中 心 , FHA ARREARS TAK 
变种 子 样本 的 簇 隶 属 关 系 . 这 样 就 得 到 了 约束 种 子 有 均值 (Constrained Seed 

k-means) 算法 [Basu et al., 2002], 其 算法 描述 如 图 13.9 所 示 . 


输入 : FAS D = {zi1, 22).…., Em}; 
SC D, |S] < |DI. 少量 有 标记 样本 S = Uf 57 ; 
RRIKA k. 
过 程 : 
1: for j = 1,2,...,k do 
AA IEA A de MOR 2: My = 5] Dees, T 
= 3: end for 
4: repeat 
5 C;=2(1<j<k); 
6: for j=1,2,...,k do 
ane 
8 


用 有 标记 样本 初始 化 for alla € S; do 


wa | C; = C; U{z} 
9: end for 

10: end for 
11: for alla; € D \ S do 
12: 计算 样本 Ti 与 各 均值 向 量 Hj (1 LIS k) 的 距离 : dij = |æ; = Al 
13: 找 出 与 样本 xz; 距离 最 近 的 簇 : r= arg minye{1,2,...,k} dij ; 
14: 将 样本 oc, 划 入 相应 的 簇 : Cr = Cr U{zi} 
15: end for 
16: for j = 1,2,...,k do 

更 新 均值 向 量 . 17: Hj = cA wees T: 

| 18: end for 


19: until 均值 问 量 均 未 更 新 
输出 : 簇 划 分 {C1, C2,..., Cx} 


13.9 约束 种 子 上 均值 算法 
ww ai bbt. com 000000 
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仍 以 西瓜 数据 集 4.0 为 例 , 假定 作为 种 子 的 有 标记 样本 为 
Sy = {@4,%25}, So = {x12, 220}, S3 = {X14, £17}. 


DAI = ARTERI FAEERE E, 图 13.10 显示 出 约束 种 子 k 
均值 算法 在 不 同 迭 代 轮 数 后 的 聚 类 绪 果 . BARR BARRES 
化 (与 第 3 ERHAN), 于 是 得 到 最 终 聚 类 结果 

Cy = {21, £2, L4, L22, L23, T24, L25, L2G, L27, Log, L29, £30} 


Co = {X6, £7, £g; L190, 11, ti, L15, Lig, Tig La}; 


Ca = {x3,%5, tg; 13, 214, 216, L17, Lat}. 





0.6 0.7 0.8 0.9 ba 0.2 0.3 0.4 0.6 0.7 0.8 0.9 


0.1 0.2 0.3 0.4 0.5 0.5 
密度 密度 
(a) 第 1 轮 迭 代 后 (b) 第 2 轮 迭 代 后 


0.6 0.7 0.8 0.9 


0.6 0.7 0.8 0.9 ba 0.2 0.3 0.4 


ba 0.2 0.3 0.4 


(c) 第 3 轮 迭 代 后 (d) 第 4 轮 和 迭代 后 


13.10 西瓜 数据 集 4.0 上 约 来 种子 均值 算法 (k = 3) 在 各 轮 和 迭代 后 的 结果 . 样本 
点 与 均值 向 量 分 别 用 “@ 与 “> 表示 , 种 子 样 本 点 为 红色 , 红色 虚线 显示 出 化 划 分 . 
ww ai bbt.com [OOOOAOA 
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k 近 令 图 和 e 近邻 图 参 
JL 10.5.1 7. 


” 许多 集成 学 习 研 究 者 认 
为 : 只 要 能 使 用 多 个 学 习 
器 即 可 将 弱 学 习 器 性 能 提 
升 到 极 高 , 无 须 使 用 未 标 
记 样 本 ; 许多 半 监 督学 习 
研究 者 认为 : 只 要 能 使 用 
未 标记 样本 即 可 将 弱 学 习 
器 性 能 提升 到 极 高 , 无 须 
使 用 多 学 习 器 . 但 这 两 种 
看 法 都 有 其 局 限 . 
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13.7 阅读 材料 


半 监 督学 习 的 研究 一 般 认为 始 于 [Shahshahani and Landgrebe, 1994], 该 
领域 在 二 十 世纪 末 、 二 十 一 世纪 初 随 着 现实 应 用 中 利用 未 标记 数据 的 巨大 需 
ACH DM Me Ace. 国际 机 器 学 习 大 会 (ICML) 从 2008 年 开始 评选 “十 年 最 佳 
论文 ”, 在 短 短 6 年 中 , 半 监 督学 习 四 大 范 型 (paradigm) 中 基于 分 歧 的 方法 、 
半 监 督 SVM、 图 半 监 督学 习 的 代表 性 工作 先后 于 2008 年 [Blum and Mitchell, 
1998]. 2009 年 [Joachims, 1999]、2013 年 [Zhu et al., 2003] 获奖 . 


生成 式 半 监 督学 习 方 法 出 现 最 早 [Shahshahani and Landgrebe, 1994]. 由 


于 需 有 充分 可 靠 的 领域 知识 才能 确保 模型 假设 不 至 于 太 坏 , 因此 该 范 型 后 来 主 
要 是 在 具体 的 应 用 领域 加 以 研究 . 


半 监 督 SVM 的 目标 函数 非 凸 , 有 不 少 工作 致力 于 减轻 非 凸 性 造成 的 不 

利 影响 , 例如 使 用 连续 统 (continuation) 方 法 , 从 优化 一 个 简单 的 凸 目 标 函 数 开 

A, 逐步 变形 为 非 凸 的 S3VM 目标 函数 [Chapelle et al., 2006a]; 使 用 确定 性 退 

火 (deterministic annealing) 过 程 , 将 非 凸 问题 转化 为 一 系列 凸 优化 问题 , 然后 

由 易 到 难 地 顺序 求解 [Sindhwani et al., 2006]; 利用 CCCP 方法 优化 非 凸 函数 
[Collobert et al., 2006] 等 . 


最 早 的 图 半 监 督学 习 方法 [Blum and Chawla, 2001] 直接 基于 聚 类 假设 ， 


”将 学 习 目 标 看 作 找 出 图 的 最 小 割 (mincut)， 对 此 类 方法 来 说 , 图 的 质量 极为 重 


要 , 13.4 节 的 高 斯 距离 图 以 及 大 近邻 图 、e 近 邻 图 都 较为 常用 , 此 外 已 有 一 些 
关于 构图 的 研究 [Wang and Zhang, 2006; Jebara et al., 2009], 基于 图 核 (graph 
kernel) 的 方法 也 与 此 有 密切 联系 [Chapelle et al., 2003]. | 

基于 分 歧 的 方法 起 源 于 协同 训练 , 最 初 设计 是 仅 选 取 一 个 学 习 器 用 于 预测 
[Blum and Mitchell, 1998]. 三 体 训练 (tri-training) 使 用 三 个 学 习 器 , 通过 “ 少 
数 服从 多 数 ” 来 产生 伪 标 记 样 本 , 并 将 学 习 器 进行 集成 [Zhou and Li, 2005b]. 
后 续 研 究 进一步 显示 出 将 学 习 器 集成 起 来 更 有 助 于 性 能 提升 , 并 出 现 了 使 用 更 
多 学 习 器 的 方法 . 更 为 重要 的 是 , 这 将 集成 学 习 与 半 监 督学 习 这 两 个 长 期 独立 
发 展 的 领域 联系 起 来 [Zhou, 2009]. 此 外 , 这 些 方法 能 容易 地 用 于 多 视图 数据 ， 
并 可 自然 地 与 主动 学 习 进 行 结合 [周志 华 , 2013). 

[Belkin et al., 2006] 在 半 监 督学 习 中 提出 了 流 形 正则 化 (manifold regular- 
ization) FER, 直接 基于 局 部 光滑 性 假设 对 定义 在 有 标记 样本 上 的 损失 函数 进行 
正则 化 , 使 学 得 的 预测 函数 具有 局 部 光滑 性 . 


半 监 督学 习 在 利用 未 标记 村 本 后 并 非 必 然 提 升 汉化 性 能 , 在 有 些 情形 下 其 
ww al bbt. com 0000 
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这 里 的 “安全 ”是 指 利 
用 未 标记 样本 后 ,能 确保 
泛 化 性 能 至 少 不 差 于 仅 利 
用 有 标记 样本 . 
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至 会 导致 性 能 下 降 . 对 生成 式 方法 , 其 成 因 被 认为 是 模型 假设 不 准确 [Cozman 
and Cohen, 2002], 因此 需 依赖 充分 可 靠 的 领域 知识 来 设计 模型 . 对 半 监 督 
SVM, 其 成 因 被 认为 是 训练 数据 中 存在 多 个 “ 低 密度 划分 ”, 而 学 习 算 法 有 可 
能 做 出 不 利 的 选择 ; S4VM [Li and Zhou, 2015] 通过 优化 最 坏 情形 性 能 来 综合 
利用 多 个 低 密 度 划 分 , 提升 了 此 类 技术 的 安全 性 . 更 一 般 的 “安全 ”(safe) 半 监 
督学 习 仍 是 一 个 未 决 问题 ， | A 

本 章 主要 介绍 了 半 监 督 分 类 和 聚 类 , 但 半 监 督学 习 已 普遍 用 于 各 类 机 器 学 
JEZ, 例如 在 半 监 督 回归 [Zhou and Li, 2005a|、 降 维 [Zhang et al., 2007] 等 
方面 都 有 相关 研究 . 更 多 关于 半 监 督学 习 的 内 容 可 参见 [Chapelle et al., 2006b; 
Zhu, 2006], [Zhou and Li, 2010; 周志 华 , 2013] 专门 介绍 了 基于 分 歧 的 方法 . 
[Settles, 2009] 是 一 个 关于 主动 学 习 的 介绍 . 
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http://archive.ics.uci.edu/ml/. 


13.5 


13.6* 


13.7* 


13.8 


13.9* 


13.10 


313 


试 推导 出 式 (13.5)~(13.8). 
试 基 于 朴素 贝 叶 斯 模型 推导 出 生成 式 半 监 督学 习 算 法 . 


假设 数据 由 混合 专家 (mixture of experts) 模 型 生成 , 即 数据 是 基于 大 
个 成 分 混合 而 得 的 概率 密度 生成 : 


k 
p(w |0) = Sai -ple | 6) " (13.22) 
i=1 


其 中 0 = {01,02,..., 0k} 是 模型 参数 , p(x | 0;) ER i 个 混合 成 分 的 
概率 密度 , 混合 系数 ui > 0, Yia = 1. 假设 每 个 混合 成 分 对 应 一 
个 类 别 , 但 每 个 类 别 可 包含 多 个 混合 成 分 . 试 推导 相应 的 生成 式 半 监 
从 网 上 下 载 或 自己 编程 实现 TSVM 算法 , 选择 两 个 UCI 数据 集 , 将 其 
中 307% 的 样 例 用 作 测 试 样本 , 10% 的 样 例 用 作 有 标记 样本 , 60% 的 样 
例 用 作 无 标记 样本 , 分 别 训练 出 利用 无 标记 样本 的 TSVM 以 及 仅 利 
用 有 标记 样本 的 SVM, 并 比较 其 性 能 . 
对 未 标记 样本 进行 标记 指派 与 调整 的 过 程 中 有 可 能 出 现 类 别 不 平衡 
问题 , 试 给 出 考虑 该 问题 后 的 改进 TSVM 算法 . 
TSVM 对 未 标记 样本 进行 标记 指派 与 调整 的 过 程 涉及 很 大 的 计算 开 
销 , 试 设计 一 个 高 效 的 改进 算法 . 
试 设计 一 个 能 对 新 样本 进行 分 类 的 图 半 监 督学 习 方法 . 
自 训 练 (self-training) 是 一 种 比较 原始 的 半 监 督学 习 方法 : 它 先 在 有 标 
记 样本 上 学 习 , 然后 用 学 得 分 类 器 对 未 标记 样本 进行 判别 以 获得 其 伪 
标记 , 再 在 有 标记 与 伪 标 记 样本 的 合集 上 重新 训练 , 如 此 反复 . 试 析 该 
方法 有 何 缺 陷 . 
给 定 一 个 数据 集 , 假设 其 属性 集 包 含 两 个 视图 , 但 事先 并 不 知道 哪些 
属性 属于 哪个 视图 , 试 设 计 一 个 算法 将 这 两 个 视图 分 离 出 来 . 
试 为 图 13.7 算法 的 第 10 行 写 出 违约 检测 算法 (用 于 检测 是 否 有 约束 
未 被 满足 ). 
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传统 的 德国 大 学 中 一 个 
系 只 有 一 位 “教授 ”， 相 
当 于 系 主 任 . 高 斯 长 期 担 
任 哥 廷 根 大 学 数学 教授 
1855 年 他 去 世 后 由 狄 利克 
雷 接任 . 


7 个 千 禧 年 数学 难题 中 ， 
已 被 证 明 的 “ 庞 加 菜 猜 
想 ” 直 接 与 流 形 有 关 : 任 
何 一 个 单 连通 、 闭 的 三 维 
流 形 一 定 同 胚 于 一 个 三 维 
球面 . 


-8317 


using Gaussian fields and harmonic functions.” In Proceedings of the 20th 
International Conference on Machine Learning (ICML), 912-919, Washing- 
ton, DC. 


小 故事 : HIS BAR RE 

“ 流 形 ”(manifold) 这 个 名 字源 于 德语 Mannig- 
faltigkeit, 是 伟大 的 德国 数学 家 伯 恩 哈 德 。 黎 曼 (Bernhard 
Riemann, 1826—1866) 提出 的 , 其 译名 则 是 我 国 拓扑 学 英 
基 人 江 泽 涵 先生 借鉴 文天祥 《正气 歌 》“ 天 地 有 正气 , BR 
赋 流 形 ” 而 来 , 可 能 是 由 于 光滑 流 形 恰 与 “ 气 ” 相 似 , 整体 
上 看 可 流动 、 变 形 . 

黎 曼 出 生 于 德国 汉诺威 的 布 列 斯 伦 茨 (Breselenz), 幼年 时 就 展现 出 惊人 的 
HF AK. 1846 年 父亲 送 他 到 哥 廷 根 大 学 攻读 神学 , 在 旁听 了 高 斯 关于 最 小 二 
乘法 的 讲座 后 , 他 决定 转 攻 数学 , 并 在 高 斯 指导 下 于 1851 年 获 博士 学 位 . 期 间 
有 两 年 他 在 柏林 大 学 学 习 , 受到 了 雅 可 比 、 狄 利克 雷 等 大 数学 家 的 影响 . 1853 
年 ,高 斯 让 和 歼 曼 在 几何 学 基础 方面 准备 一 个 报告 ,以便 取得 哥 苇 根 大 学 的 教 职 ; 
1854 年 , 黎 曼 做 了 “ 论 作 为 几何 基础 的 假设 ”的 著名 演讲 , 这 个 报告 开创 了 黎 
BLY, 提出 了 黎 曼 积分 , 并 首次 使 用 了 Mannigfaltigkeit 这 个 词 . 此 后 黎 曼 一 
直 在 哥 廷 根 大 学 任教 , 并 在 1859 年 接替 去 世 的 狄 利克 雷 担任 数学 教授 . 

黎 曼 是 黎 曼 几何 的 创立 者 、 复 变 函 数论 的 芮 基 人 , 并 对 微 积分 、 解 析 数 
论 、 组 合 拓扑 、 代 数 几 何 、 数 学 物理 方法 均 做 出 了 开创 性 贡献 , 他 的 工作 直接 
影响 了 近 百 年 数学 的 发 展 , 许多 杰出 的 数学 家 前 赴 后 继 地 努力 论证 黎 曼 断言 过 
的 定理 . 1900 年 希 尔 伯 特 列 出 的 23 个 世纪 数学 问题 与 2000 年 美国 克 雷 数学 研 
究 所 列 出 的 7 个 千 禧 年 数学 难题 中 , 有 一 个 问题 是 相同 的 , 这 就 是 黎 曼 1859 年 
因 当 选 院士 而 提交 给 柏林 科学 院 的 文章 中 提出 的 “ 黎 曼 猜想 ”. 这 是 关于 黎 曼 
C 函数 非 平凡 零点 的 猜想 . 目前 已 有 不 同 数学 分 支 的 千 余 个 数学 命题 以 黎 曼 猜 
想 为 前 提 , 若 黎 曼 猜想 正确 , 它们 将 全 部 升格 为 定理 . 一 个 猜想 联系 了 如 此 多 不 
同 数学 分 支 、 如 此 多 命题 , 在 数学 史上 是 极为 罕见 的 , 因此 它 被 公认 为 当前 最 
重要 的 数学 难题 . 
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基于 学 习 器 进行 预测 ， 
例如 根据 纹理 、 颜 色 、 根 
蒂 等 信息 判断 一 个 瓜 是 否 
为 好 瓜 就 是 在 做 推断 ; 但 
推断 远 超出 预测 范畴 , 例 
如 在 吃 到 一 个 不 见 根 蒂 的 
SRA, “HRAMA” ee 
推 其 根 蒂 的 状态 也 是 推断 . 


若 变量 间 存 在 显 式 的 因 
果 关 系 , 则 常 使 用 贝 叶 斯 
网 ; 若 变量 间 存 在 相关 性 ， 
但 难以 获得 显 式 的 因果 关 
A, 则 常 使 用 马尔 可 夫 网 . 


静态 贝 叶 斯 网 参见 7.5 
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14.1 隐 马 尔 可 夫 模 型 


机 器 学 习 最 重要 的 任务 , 是 根据 一 些 已 观察 到 的 证 据 ( 例 如 训练 样本 ) 来 
对 感 兴趣 的 未 知 变 量 (例如 类 别 标记 ) 进 行 估计 和 推测 . 概率 模型 (probabilistic 
model) 提 供 了 一 种 描述 框架 , 将 学 习 任务 归结 于 计算 变量 的 概率 分 布 . 在 概 
率 模型 中 , 利用 已 知 变量 推测 未 知 变量 的 分 布 称 为 “推断 ”(inference), 其 
核心 是 如 何 基 于 可 观测 变量 推测 出 未 知 变 量 的 条 件 分 布 . 具体 来 说 , 假定 所 
关心 的 变量 集合 为 Y, 可 观测 变量 集合 为 0, 其 他 变量 的 集合 为 R, “生成 
式 ”(generative) 模 型 考虑 联合 分 布 P(Y,R,O), “判别 式 ”(discriminative) 模 
型 考虑 条 件 分 布 P(Y, R | O). 给 定 一 组 观测 变量 值 , 推断 就 是 要 由 PY, R, O) 
或 P(Y, R | O) 得 到 条 件 概率 分 布 P(Y |O). 

直接 利用 概率 求 和 规则 消去 变量 R 显然 不 可 行 , 因为 即便 每 个 变量 仅 有 两 
种 取 值 的 简单 问题 , 其 复杂 度 已 至 少 是 OYA). 另 一 方面 , 属性 变量 之 间 往 
往 存 在 复杂 的 联系 , 因此 概率 模型 的 学 习 , 即 基 于 训练 样本 来 估计 变量 分 布 的 
参数 往往 相当 困难 . 为 了 便于 研究 高 效 的 推断 和 学 习 算 法 , 需 有 一 套 能 简洁 紧 
凑 地 表达 变量 间 关 系 的 工具 . 

概率 图 模型 (probabilistic graphical model) 是 一 类 用 图 来 表达 变量 相关 关 
系 的 概率 模型 . 它 以 图 为 表示 工具 , 最 常见 的 是 用 一 个 结 点 表示 一 个 或 一 组 
随机 变量 , 结 点 之 间 的 边 表示 变量 间 的 概率 相关 关系 , 即 “变量 关系 图 ”. 根 
据 边 的 性 质 不 同 , 概率 图 模型 可 大 致 分 为 两 类 : 第 一 类 是 使 用 有 向 无 环 图 表 
示 变 量 间 的 依赖 关系 , 称 为 有 向 图 模型 或 贝 叶 斯 网 (Bayesian network); 第 二 类 
是 使 用 无 向 图 表示 变量 间 的 相关 关系 , 称 为 无 向 图 模型 或 马尔 可 夫 网 (Markov 
network). | | | 

Ka 5 RB] AAR AY (Hidden Markov Model, 简称 HMM) 是 结构 最 简单 的 动态 
贝 叶 斯 网 (dynamic Bayesian network), 这 是 一 种 著名 的 有 回 图 模型 , 主要 用 于 
时 序数 据 建 模 , 在 语音 识别 、 目 然 语 言 处 理 等 领域 有 广泛 应 用 . 

如 图 14.1 所 示 , 隐 马 尔 可 夫 模 型 中 的 变量 可 分 为 两 组 . 第 一 组 是 状态 变量 
{V1,y2,.…… ,yn 上 , RP yi CY RNA i 时刻 的 系统 状态 . 通常 假定 状态 变量 是 隐 


藏 的 、 不 可 被 观测 的 , 因此 状态 变量 亦 称 隐 变量 (hidden variable). 第 二 组 是 观 
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WEE {zx1, x2,... ,zn}, 其 中 zi; € 表示 第 i 时刻 的 观测 值 . 在 隐 马 尔 可 夫 模 
型 中 , 系统 通常 在 多 个 状态 {81, s2,...,sN} 之 间 转 换 , 因此 状态 变量 yi 的 取 值 
范围 7 ( 称 为 状态 空间 ) 通 常 是 有 N 个 可 能 取 值 的 离散 空间 . 观测 变量 zx; 可 以 
是 离散 型 也 可 以 是 连续 型 , 为 便于 讨论 ， 我 们 仅 考虑 离散 型 观测 变量 ， 并 假定 其 
取 值 范围 X X {01,02,..., 0m}. 


图 14.1 中 的 箭头 表示 了 变量 间 的 依赖 关系 . 在 任 一 时 刻 , 观测 变量 的 取 值 

仅 依 赖 于 状态 变量 , 即 zt 由 yi 确定 , 与 其 他 状态 变量 及 观测 变量 的 取 值 无 关 . 

同时 , t 时 刻 的 状态 yi 仅 依赖 于 t+ 一 1 时刻 的 状态 wi, SHAR n 一 2 个 状态 无 

R. 这 就 是 所 谓 的 “马尔 可 夫 链 ”(Markov chain), 即 : 系统 下 一 时 刻 的 状态 仅 

所 谓 “ 现 在 决定 未 来 ”. 由 当前 状态 决定 , 不 依赖 于 以 往 的 任何 状态 . 基于 这 种 依赖 关系 , 所 有 变量 的 联 
| 合 概率 分 布 为 


P(z1,Y1,.-- , Zn; Yn) = P(yi)Plz1 | n) TP PC yi | ae DP | yi) - (14.1) 
?一 2 


除了 结构 信息 , 欲 确定 一 个 隐 马 尔 可 夫 模型 还 需 以 下 三 组 参数 


。 状 态 转移 概率 : 模型 在 各 个 状态 问 转换 的 概率 通常 记 为 窍 阵 A = 
laij|NxN, 其 中 


aij = P(yt41 = 8; | Ye = si) , l <1,7 < N,. 


表示 在 任意 时 刻 t, 若 状 态 为 si, 则 在 下 一 时 刻 状态 为 sy 的 概率 . 


。 输 出 观测 概率 : 模型 根据 当前 状态 获得 各 个 观测 值 的 概率 , ; 通常 记 为 矩阵 
B = | bijl NxM, 其 中 


Op = P(e, = 0; |e = 82) l<i<N,1<j<M 


表示 在 任意 时 刻 t 若 状态 为 si, 则 观测 值 o 被 获取 的 概率 ， 


e 初始 状态 概率 : 模型 在 初始 时 刻 各 状态 出 现 的 概率 通常 记 为 "= 
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m=P(y1=s), 1<i<N 
表示 模型 的 初始 状态 为 s; 的 概率 
通过 指定 状态 空间 Y UM x 和 上 述 三 组 参数 , 就 能 确定 一 个 隐 马 尔 
可 夫 模 型 , 通常 用 其 参数 = [A, B, r] 来 指 代 . 给 定 隐 马 尔 可 夫 模 型 X, 它 按 如 
下 过 程 产生 观测 序列 {z1, 02,02, tak 
(1) 设置 上 一 1, 并 根据 初始 状态 概率 1 选择 初始 状态 y; 
(2) 根据 状态 % 和 输出 观测 概率 B 选择 观测 变量 取 值 re 
(3) 根据 状态 y 和 状态 转移 矩阵 A 转移 模型 状态 , 即 确定 ve; 
(4) Ht<n, WHt=t4+ 1, 并 转 到 第 (2) 步 , 否则 停止 
BP yp © {51,89,---, 8x} 和 me {01,00,-.., om} 分 别 为 第 t 时 刻 的 状态 和 观 
测 值 
在 实际 应 用 中 , 人 们 常 关注 隐 马 尔 可 夫 模 型 的 三 个 基本 问题 : 
给 定 模型 入 = [A,B,， 如何 有 效 计算 其 产生 观测 序列 x = 


{x1,%2,...,0n} 的 概率 P(x | à)? 换言之 , 如 何 评估 模型 与 观测 序列 
之 间 的 匹配 程度 ? 


给 定 模 型 A = [A, B, n] 和 观测 序列 x = {x1, £2,..., En}, 如 何 找到 与 此 
观测 序列 最 匹配 的 状态 序列 y = {vy1, Y2.. Yn}? 换言之 , 如 何 根据 观测 
序列 推断 出 隐藏 的 模型 状态 ? 

给 定 观 测序 列 x = {21,22,..., 0m}, 如 何 调整 模型 参数 和 = [A,B,r] 使 
得 该 序列 出 现 的 概率 P(x | A) 最 大 ? 换言之 , 如 何 训练 模型 使 其 能 最 好 地 
描述 观测 数据 ? | 


上 述 问 题 在 现实 应 用 中 非常 重要 . 例如 许多 任务 需 根据 以 往 的 观测 序列 
{Zz1, 7X2,.… ,Zn-1} 来 推测 当前 时 刻 最 有 可 能 的 观测 值 zw, 这 显然 可 转化 为 求 取 
概率 P(x |r), 即 上 述 第 一 个 问题 ; 在 语音 识别 等 任务 中 , 观测 值 为 语音 信和 号， 
隐藏 状态 为 文字 , 目标 就 是 根据 观测 信和 号 来 推 新 最 有 可 能 的 状态 序列 ( 即 对 应 


的 文字 ), 即 上 述 第 二 个 问题 ; 在 大 多 数 现 实 应 用 中 , 人 工 指定 模型 参数 已 变 得 
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越 来 越 不 可 行 , 如 何 根据 训练 样本 学 得 最 优 的 模型 参数 , 恰 是 上 述 第 三 个 问题 
值得 庆幸 的 是 , 基于 式 (14.1) 的 条 件 独立 性 , 隐 马 尔 可 夫 模 型 的 这 三 个 问题 均 能 
被 高 效 求解 


14.2 马尔 可 夫 随 机 场 


马尔 可 夫 随 机 场 (Markov Random Field, 简称 MRF) 是 典型 的 马尔 可 夫 网 ， 
这 是 一 种 著名 的 无 向 图 模型 . 图 中 每 个 结 点 表示 一 个 或 一 组 变量 , 结 点 之 间 
的 边 表 示 两 个 变量 之 间 的 依赖 关系 . 马尔 可 夫 随 机 场 有 一 组 势 函 数 (potential 
functions), J “AF” (factor), 这 是 定义 在 变量 子 集 上 的 非 负 实 函 数 , 主要 
用 于 定义 概率 分 布 函数 . | | | 

图 14.2 显示 出 一 个 简单 的 马尔 可 夫 随 机 场 . 对 于 图 中 结 点 的 一 个 子 集 , 若 
其 中 任意 两 结 点 间 都 有 边 连 接 , 则 称 该 结 点 子 集 为 一 个 “ 团 ”(clique). 若 在 一 
个 团 中 加 入 另外 任何 一 个 结 点 都 不 再 形成 团 , 则 称 该 团 为 “ 极 大 团 ”(maximal 
clique); 换言之 , 极 大 团 就 是 不 能 被 其 他 团 所 包含 的 团 ， 例 如 , 在 图 14.2 中 ， 
{x1, £2}, {21,23}, {£2, £4}, {2,25}, {x£2, 26}, {£3, £5}, {25, xe} 和 {x2, £5, £6} 
都 是 团 , 并 且 除了 {22,25}, {22, r6} 和 {zs,z6} 之 外 都 是 极 大 团 ; 但 是 , 因为 zz 
和 zs ZIRE IER, {x1, zz, 03} 并 不 构成 团 . 显然 , 每 个 结 点 至 少 出 现在 一 个 
极 大 团 中 . 





图 14.2 一 个 简单 的 马尔 可 夫 随 机 场 


在 马尔 可 夫 随 机 场 中 , 多 个 变量 之 间 的 联合 概率 分 布 能 基于 团 分 解 
为 多 个 因子 的 乘积 , 每 个 因子 仅 与 一 个 团 相关 . 具体 来 说 , 对 于 n 个 变量 
x 二 {ZX1, 72,... ,Tn}, 所 有 团 构成 的 集合 为 C, 与 团 Q ecC 对 应 的 变量 集合 记 为 
xg, 则 联合 概率 P(x) 定义 为 


P= > 1 are), (14.2) 


GEC 


其 中 vq 为 与 团 Q 对 应 的 势 函数 ， 用 于 对 团 9 中 的 变量 关系 进行 建 模 Z = 
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Ex Mocc we(xa) 为 规范 化 因子 , 以 确保 P(x) 是 被 正确 定义 的 概率 . 在 实际 
应 用 中 , 精确 计算 2 通常 很 困难 , 但 许多 任务 往往 并 不 需 获 得 Z 的 精确 值 . 

显然 , 若 变量 个 数 较 多 , 则 团 的 数目 将 会 很 多 (例如 , 所 有 相互 连接 的 两 个 
变量 都 会 构成 团 ), 这 就 意味 着 式 (14.2) 会 有 很 多 乘积 项 , 显然 会 给 计算 带 来 负 
担 . 注意 到 若 团 Q 不 是 极 大 团 , 则 它 必 被 一 个 极 大 团 Q* 所 包含 , 即 xg C xo; 
这 意味 着 变量 xo 之 间 的 关系 不 仅 体现 在 势 函数 wo 中 , 还 体现 在 po 中 . 于 
E, 联合 概率 P(x) 可 基于 极 大 团 来 定义 . 假定 所 有 极 大 团 构成 的 集合 为 C, 则 
| 

Px) = TT weo)， (14.3) 
QEC* 

HPZ => lloec: welxe) 为 规范 化 因子 . 例如 图 14.2 P x = {zx1, 7X2,...， 
re}, 联合 概率 分 布 P(x) 定义 为 


P(x) = Sia (ar, 22) bis(z1, 23) pos(22, 24) pas (555) 0256 (2, 25, £0) ; 


其 中 , 势 函 数 56(za, £5, 26) 定义 在 极 大 团 {x2, £5, x6} 上 , 由 于 它 的 存在 , 使 
我 们 不 再 需 为 团 {za,z5}, {z2,z6} 和 {z5,z6} 构建 势 函 数 . 

在 马尔 可 夫 随 机 场 中 如 何 得 到 “条 件 独立 性 ” 呢 ? 同样 借助 “分 离 ” 的 概 
念 , 如 图 14.3 所 示 , FAAARA 中 的 结 点 到 B 中 的 结 点 都 必须 经 过 结 点 集 C 
中 的 结 点 , 则 称 结 点 集 4 和 B RARER C 分 离 , C 称 为 “分 离 集 ”(separating 
set). 对 马尔 可 夫 随 机 场 , 有 


e “全 局 马尔 可 夫 性 ”(global Markov property): 给 定 两 个 变量 子 集 的 分 
AR, 则 这 两 个 变量 子 集 条 件 独立 . 


也 就 是 说 , 图 14.3 中 若 令 A, B 和 C 对 应 的 变量 集 分 别 为 x4, xp Ñ xc, M xa 
和 xp 在 给 定 xc 的 条 件 下 独立 , 记 为 xX4 上 xp | xc. 





图 14.3 结 点 集 4 和 和 BB 被 结 点 
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”下 面 我 们 做 一 个 简单 的 验证 . 为 便于 讨论 , 我 们 令 图 14.3 HR A, BAC 
分 别 对 应 单 变量 z4, zB Mac, 于 是 图 14.3 简化 为 图 14.4. 


14.4 图 14.3 的 简化 版 


对 于 图 14.4 由 式 (14.2) 可 得 联合 概率 


P(xA, XB, £C) = Sac(2A 0) bBo (zB zo) i (14.4) 
基于 条 件 概 率 的 定义 可 得 
P(x4,£B, £c) _ P(r, £B, Zc) 


P = ee SN, Diod ley 
(z4; LB | zo) Pl(zo) . Dual, pare P(x, TB: zo) 


__ zbac(ta,zo)bec(re,tc) 
2a DA 六 AC (Th TC)WBC(TB, To) 


_ _Waclta,tc)  YBolzB, zc) 


= Zy vaolas) Sa Poep r) P 


Plzhazol) Xe P(@As Bg, Bo) 
P(tc) ~ Yat, Neat, P(2!4, LB, tc) 
Lint, ZPAC(LA, XC) PBC (ag, LC) 
7 Dor, Dual, ZYAC(2',, BC) PBC (xg, Zc) 


_ _ Pac(@a,tc) 
> ww PAC(@4, TO) 


P(zA | rc) = 


(14.6) 
由 式 (14.5) 和 (14.6) 可 知 
Plzaza|zc)= Plca|lzc)Plzalzo)， (14.7) 


EN xa 和 TB 在 给 定 zc 时 条 件 独立 . 


由 全 局 马尔 可 夫 性 可 得 到 两 个 很 有 用 的 推论 : 


o 局 部 马尔 可 夫 性 (local Markov property): 给 定 某 变量 的 邻接 变量 ， 则 该 
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亲 变 量 的 所 有 久 接 变量 。 变量 条 件 独立 于 其 他 变量 . 形式 化 地 说 , & V 为 图 的 结 点 集 , n(o) 为 结 点 


“RAT KB” (Markov v 在 图 上 的 邻接 结 点 ， n*(v) = n(v) U {v}, Axy L XV\n*(v) | Xn(v) - 
blanket). | 


e。 成 对 马尔 可 夫 性 (pairwise Markov property): 给 定 所 有 其 他 变量 , 两 个 非 
邻接 变量 条 件 独 立 . 形式 化 地 说 , 令 图 的 结 点 集 和 边 集 分 别 为 了 和 E, 对 
图 中 的 两 个 结 点 % 和 vw, Æ (u,v) € E, WW xy L xy | XV luo) - 


现在 我 们 来 考察 马尔 可 夫 随机 场 中 的 势 函 数 . 显然, 势 函数 Volo) 的 作 
用 是 定量 刻画 变量 集 xo 中 变量 之 间 的 相关 关系 , 它 应 该 是 非 负 函 数 , 且 在 所 偏 
好 的 变量 取 值 上 有 较 大 函数 值 . 例如 , 假定 图 14.4 中 的 变量 均 为 二 值 变 量 , Æ 
| 15, if z4 = Tc; 

VA | 0.1, otherwise , 
02- ap = to; 


1.3, otherwise , 


WBo(£@B, xc) = | 
则 说 明 该 模型 偏好 变量 z4 与 zc 拥有 相同 的 取 什 , zp 与 ze 拥有 不 同 的 取 值 ; 
换言之 , 在 该 模型 中 x4 与 zc 正 相关 , zB 与 ro 负 相 关 . 结合 式 (14.2) 易 知 , > 
z4 与 zc 相同 且 za 与 zc 不 同 的 变量 值 指派 将 取得 较 高 的 联合 概率 . 
为 了 满足 非 负 性 , 指数 函数 常 被 用 于 定义 势 函 数 , 即 | 


Wa(xg) =e Meme) (14.8) 


Ho(xo) 是 一 个 定义 在 变量 xq 上 的 实 值 函数 , 常见 形式 为 


Ho(xoQ) = > QuvTuTy 十 ` EPE (14.9) 
u, vEQ,uŁv vEQ 
其 中 au 和 By EBM. 上 式 中 的 第 二 项 仅 考 虑 单 结 点 ， 第 一 项 则 考虑 每 “对 结 


点 的 关系 


14.3 条 件 随 机 场 


条 件 随机 场 (Conditional Random Field, 简称 CRF) 是 一 种 判别 式 无 向 图 

条 件 随机 场 可 看 作 给 定 “ 模 型 . 14.1 节 提 到 过 , 生成 式 模型 是 直接 对 联合 分 布 进行 建 模 , 而 判别 式 模型 则 

LARE TAR A, 是 对 条 件 分 布 进行 建 模 , 前 面 介绍 的 隐 马 尔 可 夫 模 型 和 马尔 可 夫 随机 场 都 是 生 
对 率 回归 参见 3.3 节 ， ” ”成 式 模型 , 而 条 件 随机 场 则 是 判别 式 模型 . 
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条 件 随 机 场 试 图 对 多 个 变量 在 给 定 观 测 值 后 的 条 件 概率 进行 建 模 . 具体 来 
说 , BS x = {zl £2, ..., Xn} 为 观测 序列 , y = {y1, yo, ---, Vn} 为 与 之 相应 
的 标记 序列 , 则 条 件 随机 场 的 目标 是 构建 条 件 概 率 模 型 P(y |x). 需 注意 的 是 ， 
标记 变量 y 可 以 是 结构 型 变量 , 即 其 分 量 之 间 具 有 某 种 相关 性 . 例如 在 自然 语 
言 处 理 的 词性 标注 任务 中 , 观测 数据 为 语句 ( 即 单词 序列 ), 标记 为 相应 的 词性 序 
列 , 具有 线性 序列 结构 , 如 图 14.5(a) 所 示 ; 在 语法 分 析 任 务 中 , 输出 标记 则 是 语 
法 树 , 具有 树 形 结构 , 如 图 14.5(b) 所 示 . 


[S] 








[NP] ~ [vp 
{yy Y2 Y3 Y4 Y5 Ye} 
[PP] y 
[D] [N] [V] [P] [DI N] 
[NP] 
A 
| [D] [N] V] [PHD] NI 
The boy knocked at the watermelon. | The boy knocked at the watermelon. | X 
(a) 词性 标注 (b) 语法 分 析 


14.5 自然 语言 处 理 中 的 词性 标注 和 语法 分 析 任 务 


令 G = (V, E) 表示 结 扩 与 标记 变量 y 中 元 素 一 一 对 应 的 无 向 图 , yo 表示 
Sea u 对 应 的 标记 变量 , n(v) ERRAR v 的 邻接 结 扣 , 大 图 G 的 每 个 变量 yy 
都 满足 马尔 可 夫 性 , 即 


PY | xyv\fo) = PY | X, yn(v)) ， (14.10) 


则 (y,x) 构成 一 个 条 件 随机 场 . 


理论 上 来 说 , AG 可 有 具有 任意 结构 , 只 要 能 表示 标记 变量 之 间 的 条 件 独 立 
性 关系 即 可 . 但 在 现实 应 用 中 , 尤其 是 对 标记 序列 建 模 时 , 最 常用 的 仍 是 图 14.6 
所 示 的 链 式 结构 , 即 “ 链 式 条 件 随机 场 ”(chain-structured CRF). 下 面 我 们 主 
要 讨论 这 种 条 件 随机 场 . 





KSI We 204 Lay 


14.6 链 式 条 件 随机 场 的 图 结构 
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与 马尔 可 夫 随 机 场 定 义 联 合 概率 的 方式 类 似 , 条 件 随机 场 使 用 势 函数 和 图 
结构 上 的 团 来 定义 条 件 概率 Ply | x). 给 定 观测 序列 x, 图 14.6 所 示 的 链 式 条 
件 随机 场 主要 包含 两 种 关于 标记 变量 的 团 , 即 单个 标记 变量 {y;} 以 及 相 邻 的 标 
WEE {y yi}. 选择 合适 的 势 函数 , 即 可 得 到 形 如 式 (14.2) 的 条 件 概 率 定 义 . 
在 条 件 随机 场 中 , 通过 选用 指数 势 函数 并 引入 特征 函数 (feature function), 条 件 


j i=l 


Pty | x) = Z exp pean (yitr1, Yi X, i) + EE rent 8 


(14.11) 


其 中 tilyiti, Ys, X, i) 是 定义 在 观测 序列 的 两 个 相 邻 标记 位 置 上 的 转移 特征 函 
数 (transition feature function), 用 于 刻画 相 邻 标 记 变 量 之 间 的 相关 关系 以 及 观 
测序 列 对 它们 的 影响 , sp (yi, x, i) 是 定义 在 观测 序列 的 标记 位 置 ? 上 的 状态 特征 
函数 (status feature function), 用 于 刻画 观测 序列 对 标记 变量 的 影响 , 入; 和 jx 
HEM, 2 为 规范 化 因子 , 用 于 确保 式 (14.11) 是 正确 定义 的 概率 . 

显然 , 要 使 用 条 件 随机 场 , 还 需 定义 合适 的 特征 函数 . 特征 函数 通常 是 实 值 
PRA, 以 刻画 数据 的 一 些 很 可 能 成 立 或 期 望 成 立 的 经 验 特性 . 以 图 14.5(a) 的 词 
性 标注 任务 为 例 , ERA RFE R Z 


1, if yi1 = [P], y: = [V] and zi =“knock”; 


tj; (Yit1, Yi xX, i) = 
sae ý 0, otherwise, 


则 表示 第 i 个 观测 值 wm AGA] “knock” NY, 相应 的 标记 y; 和 yiyi 很 可 能 分 别 为 
[V] 和 [P]. 知 采 用 状态 特征 函数 


1, ify; = |V] and z; = “knock”; 


0, otherwise, 


Sk(Yi, X, i) m | 
则 表示 观测 值 x; 为 单词 “knock” IN, 它 所 对 应 的 标记 很 可 能 为 [V]. 
对 比 式 (14.11) 和 (14.2) 可 看 出 , 条 件 随 机 场 和 马尔 可 夫 随 机 场 均 使 用 团 上 


的 势 函数 定义 概率 , 两 者 在 形式 上 没有 显著 区 别 ; 但 条 件 随机 场 处 理 的 是 条 件 
概率 , 而 马尔 可 夫 随 机 场 处 理 的 是 联合 概率 . 
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贝 叶 斯 学 派 认为 未 知 参 
数 与 其 他 变量 一 样 ， 都 是 
随机 变量 , 因此 参数 估计 
和 变量 推断 能 统一 在 推断 
框架 下 进行 , 但 频率 主义 
学 派对 此 并 不 认同 . 


第 14 章 ”概率 图 模型 


14.4 学 习 与 推断 


基于 概率 图 模型 定义 的 联合 概率 分 布 , 我 们 能 对 目标 变量 的 边际 分 
布 (marginal distribution) 或 以 某 些 可 观测 变量 为 条 件 的 条 件 分 布 进行 推断 . 条 
件 分 布 我 们 已 经 接触 过 很 多 , 例如 在 隐 马 尔 可 夫 模 型 中 要 估算 观测 序列 x 在 给 
定 参数 入 下 的 条 件 概率 分 布 . 边际 分 布 则 是 指 对 无 关 变量 求 和 或 积 
R, 例如 在 马尔 可 夫 网 中 , 变量 的 联合 分 布 被 表示 成 极 大 团 的 势 函数 乘积 ， 
‘ai BEB O 求解 某 个 变量 x 的 分 布 , 就 变 成 对 联合 分 布 a 
行 积 分 的 过 程 , 这 称 为 “边际 化 ”(marginalization). 


对 概率 图 模型 , 还 需 确定 具体 分 布 的 参数 , 这 称 为 参数 估计 或 参数 学 习 问 
题 , 通常 使 用 极 大 似 然 估 计 或 最 大 后 验 概率 估计 求解 . 但 者 将 参数 视 为 竺 推测 
的 变量 , 则 参数 估计 过 程 和 推断 十 分 相似 , 可 以 “吸收 ”到 推断 问题 中 . 因此 ， 
下 面 我 们 只 讨论 概率 图 模型 的 推 斯 方法 . 

具体 来 说 , 假设 图 模型 所 对 应 的 变量 集 x = {zx1, x2,...,zN} 能 分 为 xp 和 
xp 两 个 不 相交 的 变量 集 , 推断 问题 的 目标 就 是 计算 边际 概率 P(x) 或 条 件 概 
率 P(xr | Xp). 由 条 件 概率 定义 有 


P(xg,xF) P(xg,xF) 


P(xz) O ap P(E xP) ’ Cone 





o P(xp | XB) = 


其 中 联合 概率 P(g, Xp) TF AAR LER, 因此 , 推断 问题 的 关键 就 是 
如 何 高 效 地 计算 边际 分 布 , 即 


P(xp) = 5 P(xe, xr) . (14.13) 


概率 图 模型 的 推断 方法 大 致 可 分 为 两 类 . 第 一 类 是 精确 推断 方法 , 希望 能 
计算 出 目标 变量 的 边际 分 布 或 条 件 分 布 的 精确 值 ; 遗憾 的 是 , 一 般 情形 下 , 此 类 
算法 的 计算 复杂 度 随 着 极 大 团 规模 的 增长 呈 指 数 增长 , 适用 范围 有 限 . 第 二 类 
是 近似 推断 方法 , 希望 在 较 低 的 时 间 复 杂 度 下 获得 原 问题 的 近似 解 ; 此 类 方法 


在 现实 任务 中 更 常用 . 本 节 介 绍 两 种 代表 性 的 精确 推断 方法 ,下 一 节 介 绍 近似 


推断 方法 . 


14.4.1 变量 消去 


精确 推断 的 实质 是 一 类 动态 规划 算法 , 它 利用 图 模型 所 描述 的 条 件 独立 性 


来 削减 计算 目标 概率 值 所 需 的 计算 量 . 变量 消去 法 是 最 直观 的 精确 推断 算法 ， 
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也 是 构建 其 他 精确 推断 算法 的 基础 | 
我 们 先 以 图 14.7(a) 中 的 有 向 图 模型 为 例 来 介绍 其 工作 流程 





M35 (x5) 


(a) 贝 叶 斯 网 络 结构 (b) 消息 传递 过 程 


14.7 变量 消去 法 及 其 对 应 的 消息 传递 过 程 


假定 推断 目标 是 计算 边际 概率 Ples). 显然 , 为 了 完成 此 目标 , 只 需 通过 加 
法 消去 变量 {zx1, £2, £3, 24}, BH 


= > > > 5 Par oy tayá; £5) 


z4 £3 T2 T1 
”基于 有 向 图 模型 所 描述 
的 条 件 独立 性 . =S >》 >》 >》Plzi)Plza | zi)P(zs | zz)P(za | zs)P(zs | £3) . 


T4 T3 T2 TI 


(14.14) 
不 难 发 现 ， Fa A {ZX1, £2, L4, 23} 的 顺序 计算 加 法 ， 则 有 
Plas) = )_,P(es| as) )_ Plea | 29) > P(es | 2) dP (21) P(x | £1) 


= 2, Ples | v0) dP (z4 | £3 ) 2, Ples | z2)m12(12) , (14.15) 


其 中 mi; (xj) 是 求 加 过 程 的 中 间 结 果 , FER i 表示 此 项 是 对 zi 求 加 的 结果 , 下 
标 7 表示 此 项 中 剩 下 的 其 他 变量 . 显然 , myle) 是 关于 z 的 函数 . 不 断 执 行 此 
过 程 可 得 


= >》 Plas | x3) > P(xa4 | T3)m23(z3) 
= 2, Plas | +3)m23(x3) 2, Plas | x3) 
= =y Plas | eee ees (x3) 


T3 


= mg35(£5). 14.16 
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显然 , 最 后 的 mas(zs) 是 关于 zs 的 函数 , 仅 与 变量 zs 的 取 值 有 关 ， 
事实 上 , 上 述 方法 对 无 向 图 模型 同样 适用 . 不 妨 忽 略图 14.7(a) 中 的 箭头 ， 
将 其 看 作 一 个 无 向 图 模型 , 有 


P(£1, £2, £3, £4, 25) = Sule, £2) W23(r2,23)P34(23, £4) 35 (3, £5) , 
| (14.17) 
其 中 Z 为 规范 化 因子 . 边际 分 布 Plas) 可 这 样 计算 : 


P(x5) = > X Yas(23, 25) X Yas(z3, £4) 》 Vas(22, £3) X Y12(21, 22) 


= > > E £5) ` wW34(23, £4) ` 403 (£2, T3)m12(72) 


T4 


= > mas(za) E (14.18) 

显然 , 通过 利用 乘法 对 加 法 的 分 配 律 , 变量 消去 法 把 多 个 变量 的 积 的 求 和 
问题 , 转化 为 对 部 分 变量 交 蔡 进行 求 积 与 求 和 的 问题 . 这 种 转化 使 得 每 次 的 求 
和 与 求 积 运算 限制 在 局 部 , 仅 与 部 分 变量 有 关 , 从 而 简化 了 计算 . 

变量 消去 法 有 一 个 明显 的 缺点 : 若 需 计算 多 个 边际 分 布 , 重复 使 用 变量 
消去 法 将 会 造成 大 量 的 宛 余 计算 . 例如 在 图 14.7(a) 的 贝 叶 斯 网 上 , 假定 在 计 
算 P(zs) 之 外 还 希望 计算 P(z4), HRA {1, 22, 25, £3} 的 顺序 , 则 m12(x2) 和 
mo3(23) 的 计算 是 重复 的 . 


14.4.2 信念 传播 


亦 称 Sum-Product 算法 . 念 传播 (Belief Propagation) 算 法 将 变量 消 去 法 中 的 求 和 操作 看 作 一 个 消 
ao 较 好 地 解决 了 求解 多 个 边际 分 布 时 的 重复 计算 问题 . 具体 来 说 , 变 
量 消去 法 通过 求 和 操作 


Mij oe = Pris) [I mpi(Ti) (14.19) | 

ben(i)\j | 

消去 变量 x;, 其 中 n(i) 表示 结 点 zi 的 邻接 结 点 . 在 信念 传播 算法 中 , 这 个 操作 
被 看 作 从 ci 向 zj 传递 了 一 个 消息 mi; (xj). 这 样 , 式 (14.15) 和 (14.16) 所 描述 的 
变量 消去 过 程 就 能 描述 为 图 14.7(b) 所 示 的 消息 传递 过 程 . 不 难 发 现 , 每 次 消息 


传递 操作 仅 与 变量 ri 及 其 邻接 结 点 ERR, 换言之 , 消息 传递 相关 的 计算 被 
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限制 在 图 的 局 部 进行 
在 信念 传播 算法 中 , 一 个 结 点 仅 在 接收 到 来 自 其 他 所 有 结 点 的 消息 后 才能 
向 另 一 个 结 点 发 送 消息 , 且 结 点 的 边际 分 布 正 比 于 它 所 接收 的 消息 的 乘积 , 即 


P(zil cc [|| mu(zi) . (14.20) 
例如 在 图 14.7(b) 中 , 结 点 x3 要 向 zs 发 送 消息 , 必须 事先 收 到 来 自 结 点 za 和 


LA KE, 且 传 递 到 zs 的 消息 ma5(z5) 恰 为 概率 P(zs5). 
若 图 结构 中 没有 环 , 则 信念 传播 算法 经 过 两 个 步骤 即 可 完成 所 有 消息 传递 ， 
进而 能 计算 所 有 变量 上 的 边际 分 布 : | 
e 指定 一 个 根 绪 点 , MATA ae ATAR ae eA A, 直到 根 结 点 收 到 
所 有 邻接 结 点 的 消息 ; 


。 从 根 结 把 开始 向 叶 结 点 传 递 消 恩 , 直到 所 有 叶 结 点 均 收 到 消息 . 


例如 在 图 14.7(aj 中 , 令 ay 为 根 结 点 , 则 za 和 oy 为 叶 结 点 . 以 上 两 步 消息 
传递 的 过 程 如 图 14.8 所 示 . 此 时 图 的 每 条 边 上 都 有 方向 不 同 的 两 条 消息 , 基于 
这 些 消息 和 式 (14.20) 即 可 获得 所 有 变量 的 边际 概率 . 









Finaa( a) 


mss(zs) 


“nad 


(a) 消息 传 向 根 结 点 (b) 消息 从 根 结 点 传 出 
14.8 信念 传播 算法 图 示 








一 
ml23(Z3) 





一 
M12 (z2) 





14.5 近似 推断 

精确 推断 方法 通常 需要 很 大 的 计算 开销 , 因此 在 现实 应 用 中 近似 推断 方法 
更 为 常用 . 近似 推断 方法 大 致 可 分 为 两 大 类 : 第 一 类 是 采样 (sampling), 通过 使 
用 随机 化 方法 完成 近似 ; 第 二 类 是 使 用 确定 性 近似 完成 近似 推断 , 典型 代表 为 
变 分 推断 (variational inference). 
14.5.1 MCMC 采 样 


在 很 多 任务 中 , 我 们 关心 某 些 概率 分 布 并 非 因为 对 这 些 概率 分 布 本 身 感 兴 
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ELARRE, M | 把 
积分 换 做 求 和 即 可 . 


A ple) 的 相关 分 布 . 
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趣 , 而 是 要 基于 它们 计算 某 些 期 望 , 并 且 还 可 能 进一步 基于 这 些 期 望 做 出 决策 
例如 对 图 14.7(a) 的 贝 叶 斯 网 , 进行 推断 的 目的 可 能 是 为 了 计算 变量 zs 的 期 望 . 
若 直接 计算 或 逼近 这 个 期 望 比 推断 概率 分 布 更 容易 , 则 直接 操作 无 疑 将 使 推断 
问题 的 求解 更 为 高 效 . 


”采样 法 正 是 基于 这 个 思路 . 具体 来 说 , 假定 我 们 的 目标 是 计算 函数 f(z) 在 
概率 密度 函数 p(z) 下 的 期 记 


p(x)dx , | (14.21) 
则 可 根据 p(x) 抽取 一 组 样本 [ipasa TN}, 然后 计算 f(z) 在 这 些 样本 上 的 
均值 | 
a Gi 
mo (14.22) 
i=1 


以 此 来 近似 目标 期 望 Elf]. 若 样本 {x1, 22... cn} 独立 , 基于 大 数 定 律 , 这 种 
通过 大 量 采 样 的 办 法 就 能 获得 较 高 的 近似 精度 . 问题 的 关键 是 如 何 采 样 . 对 概 
率 图 模型 来 说 , 就 是 如 何 高 效 地 基于 图 模型 所 描述 的 概率 分 布 来 获取 样本 . 


概率 图 模型 中 最 常用 的 采样 技术 是 马尔 可 夫 链 蒙 特 卡 罗 (Markov Chain 
Monte Carlo, 简称 MCMC) 方 法 . 给 定 连续 变量 z e X 的 概率 密度 函数 p(x), 

z 在 区 间 A 中 的 概率 可 计算 为 
P(A) = J TTA (14.23) 

A i . 
若 有 函数 f XR, 则 可 计算 f(z) 的 期 望 

ptf) = Ep lA) = [fw aza 
Fo TENTENE DRS TEA x, HANER ARAA, 则 对 


式 (14.24) 求 积分 通常 很 困难 . 为 此 , MCMC 先 构造 出 服从 分 布 的 独立 同 分 布 
随机 变量 x1, xa,...,xN, 再 得 到 式 (14.24) 的 无 偏 估计 


PA ae. 
ee -© (14.25) 


然而 , 若 概率 密度 函数 p(x) BAA, 则 构造 服从 p 分 布 的 独立 同 分 布 样本 
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Metropolis-Hastings # 
法 是 由 N. Metropolis 等 人 
1953 年 提出 [Metropolis 
et al.，1953]， 此 后 W. K. 
Hastings 将 其 推广 到 一 般 
形 式 [Hastings，1970]， 因 
此 而 得 名 . 


重复 足够 多 次 以 达到 平 
稳 分 布 . 


根据 式 (14.28). 
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也 很 困难 . MCMC 方法 的 关键 就 在 于 通过 构造 “平稳 分 布 为 p 的 马尔 可 夫 链 ” 
来 产生 样本 : 若 马尔 可 夫 链 运行 时 间 足 够 长 ( 即 收敛 到 平稳 状态 ), 则 此 时 产 出 
的 样本 x 近似 服从 于 分 布 p. 如 何 判断 马尔 可 夫 链 到 达 平 稳 状态 呢 ? 假定 平稳 
马尔 可 夫 链 了 的 状态 转移 概率 ( 即 从 状态 x 转移 到 状态 x! 的 概率 ) 为 T(x' | x), 
t 时 刻 状 态 的 分 布 为 p(x!), 则 车 在 某 个 时 刻 马 尔 可 夫 链 满足 平稳 条 件 
p(X)T (xt | x) = p(x) T(x! | x74), (14.26) 
N p(x) 是 该 马尔 可 夫 链 的 平稳 分 布 , HIRTI REEN EAR BPP 
稳 状 态 . | | | 
也 就 是 说 , MCMC 方法 先 设法 构造 一 条 马尔 可 夫 链 , 使 其 收敛 至 平稳 分 布 
恰 为 待 估计 参数 的 后 验 分 布 , 然后 通过 这 条 马尔 可 夫 链 来 产生 符合 后 验 分 布 的 
样本 , 并 基于 这 些 样本 来 进行 估计 . 这 里 马尔 可 夫 链 转移 概率 的 构造 至 关 重 要 ， 
不 同 的 构造 方法 将 产生 不 同 的 MCMC 算法 . | 
Metropolis-Hastings (简称 MH) 算法 是 MCMC 的 重要 代表 . CAE “FB 
绝 和 采样 (reject sampling) KEA Ffan t p. wE 14.9 所 示 , 算法 每 次 根 
据 上 一 轮 采 样 结果 区 -1 来 采样 获得 候选 状态 样本 x*, 但 这 个 候选 样本 会 以 
一 定 的 概率 被 “拒绝 ” 掉 . 假定 从 状态 xt] 到 状态 x* 的 转移 概率 为 Q(x* | 
xt-1)A(x* | x41), 其 中 Q(x* | xt) 是 用 户 给 定 的 先 验 概率 , A(x* | x!) 是 
x* 被 接受 的 概率 . 若 x* 最 终 收 敛 到 平稳 状态 , 则 根据 式 (14.26) 有 


px )Q(x* | xP A | x) = p(x") QR | x*)A(xi™* | x") , (14.27) 


aay 先 验 概率 Q(x* | xt). 


过 程 : 

1: 初始 化 x0; 

2: for t = 1,2,... do 

3: ”根据 Q(x* | xét) 采样 出 候选 样本 x*; 

4: ”根据 均匀 分 布 从 (0, 1) 范围 内 采样 出 阔 值 u; 
5: if u < A(x*|x*+) then 
6: 

7 

8 


xt = x* 
else 
; aot aot 
9: end if 
10: end for 


11: return x!,x’,... 


输出 : 采样 出 的 一 个 样本 序列 xt x?, 


14.9 Metropolis-Hastings 算法 . 
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于 是 , 为 了 达到 平稳 状态 , 只 需 将 接受 率 设置 为 


Nig AS i p(x*)Q(x'! | x*) \ | 
Age |x) = min (Loea) 428) 


吉 布 斯 采样 (Gibbs sampling) 有 时 被 视 为 MH 算法 的 特例 ， oe 
可 夫 链 获取 样本 , 而 该 马尔 可 夫 链 的 平稳 分 布 也 是 采样 的 目标 分 布 p(x). 具体 
来 说 , 假定 x = {x1, 2x2,.…. ,ZN}, 目标 分 布 为 P(X), 在 初始 化 x 的 取 值 后 , 通过 
RAAT LK BRE BRA 


(1) 随机 或 以 某 个 次 序 选取 某 变量 ri 
(2) 根据 x PRR zi 外 的 变量 的 现 有 取 值 , 计算 条 件 概 率 plr | x), 其 中 


ps We a es gy | ) 


(3) 根据 p(z; | xq) 对 变量 x; 采样 , 用 采样 信 代 蔡 原 值 . 


14.5.2 变 分 推断 

变 分 推断 通过 使 用 已 知 简单 分 布 来 逼近 需 推断 的 复杂 分 布 ， 并 通过 限制 近 
似 分 布 的 类 型 , 从 而 得 到 一 种 局 部 最 优 、 但 具有 确定 解 的 近似 后 验 分 布 . 

在 学 习 变 分 推断 之 前 , 我 们 先 介 绍 概率 图 模型 一 种 简洁 的 表示 方法 一 一 盘 


| 式 记 法 (plate notation) [Buntine, 1994]. Æ 14.10 给 出 了 一 个 简单 的 例子 . 


图 14.10(a) 表 示 N 个 变量 {x1,z2,...,XN} 均 依赖 于 其 他 变量 z。， 在 图 


“14.10(b) 中 , 相互 独立 的 、 由 相同 机 制 生成 的 多 个 变量 被 放 在 一 个 方 框 ( 盘 ) 内 


并 在 方 框 中 标 出 类 似 变量 重复 出 现 的 个 数 N; 方 框 可 以 嵌 套 . 通常 用 阴影 标注 
出 已 知 的、 能 观察 到 的 变量 , 如 图 14.10 中 的 变量 z. 在 很 多 学 习 任 务 中, 对 属 
性 变量 使 用 盘 式 记 法 将 使 得 图 表示 非常 简洁 . 





(a) 普通 变量 关系 图 (b) 盘 式 记 法 


图 14.10 盘 式 记 法 的 例 示 
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| 在 图 14.10(D) 中 ， 所 有 能 观察 到 的 变量 OR A RB 
变 分 推断 使 用 的 近似 分 


布 需 具有 良好 的 数值 性 质 ， 
通常 是 基于 连续 型 变量 的 
概率 密度 函数 来 刻画 的 p(x | ©) = [Treozle (14.29) 
i=] Z 
所 对 应 的 对 数 似 然 函数 为 
更 
Inp(x | ©) = >》 In Ze z | 9)| | (14.30) 
i=l Z 


Ht x = {r1,20,...,02n}, 昌 是 x 与 z 服 从 的 分 布 参数 . 
一 般 来 说 , 图 14.10 所 对 应 的 推 新 和 学 习 任 务 主 要 是 由 观察 到 的 变量 x 来 
估计 隐 变 量 z 和 分 布 参数 变量 O, 即 求解 p(z | x, O) 和 ©. 
概率 模型 的 参数 估计 通常 以 最 大 化 对 数 似 然 函数 为 手段 . 对 式 (14.30) 可 使 
EM 算法 参见 7.6 节 ， 用 EM 算法 : 在 卫 步 , 根据 上 时 刻 的 参数 6 对 p(z | x, O°) 进行 推断 , 并 计算 联 
合 似 然 函 数 p(x z | 9); 在 M 步 , 基于 卫 步 的 结果 进行 最 大 化 寻 优 , 即 对 关于 变 
量 O 的 函数 Q(6; O°) 进行 最 大 化 从 而 求 取 - 


otti — argmaxQ(9; 9 
O 


= arg max 》 p(z | x, 8”) In p(x, z | O) . (14.31) 
© Z 


式 (14.31) 中 的 8(6; 0°) 实际 上 是 对 数 联合 似 然 函 数 Inp(x,z | 9) 在 分 布 
plz | x,9b 下 的 期 望 , 当 分 布 pz | x,0!) 与 变量 z 的 真实 后 验 分 布 相 等 时 ， 
QO(0; 86!) 近似 于 对 数 似 然 函数 . 于 是 , EM 算法 最 终 可 获得 稳定 的 参数 9, 而 隐 
变量 z 的 分 布 也 能 通过 该 参数 获得 . 

需 注 意 的 是 , p(z | x,0°) 未 必 是 隐 变 量 z 服从 的 真实 分 布 , 而 只 是 一 个 近 
似 分 布 . 大 将 这 个 近似 分 布 用 g(z) 表示 , 则 不 难 验 证 





In p(x) = L(a) + KL(a || p), (14.32) 
其 中 
L(q) = [aw In [em a } dz , (14.33) 
KL 散 度 , 参见 附录 C.3. KL(q || p) =— | oa(z)m 本 (14.34) 
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为 简化 表述 这 里 将 
qi(zi) 简写 为 qi. 


const 是 一 个 常数 . 


第 14 章 ”概率 图 模型 


然而 在 现实 任务 中 , EX plz | x, O) 的 推断 很 可 能 因 z 模型 复杂 而 难以 
进行 , 此 时 可 借助 变 分 推断 . 通常 假设 z 服从 分 布 


M | Ad 
z) = | | a(z), | (14.35) 
?一 | 


即 假设 复杂 的 多 变量 z 可 拆 解 为 一 系列 相互 独立 的 多 变量 z;. 更 重要 的 是 ， 
可 以 令 qi 分 布 相 对 简单 或 有 很 好 的 结构 ， 例如 假设 qi A 
family) 分 布 , 此 时 有 


= MIC [apea — a dz 


一 / $ fants Z) [oe dz; 一 Ja In gq;dz; + const 


ifj 
= fa In p(x, z;)dz; 一 fa In gjdz; + const , (14.36) 
其 中 
In p(x, zj) = Exz; [In p(x, z)] + const ， (14.37) 
Egy [ln p(x, z)] = J in p(x, z) Tads. (14.38) 
tj . 


我 们 关心 的 是 %， 因 此 可 固定 gin; 再 对 L(q) 进行 最 大 化 , 可 发 现 


式 (14.36) 等 于 KL (q; || 0,24), 即 当 q = Pz) 时 L(g) 最 大 , 于 是 可 


知 变量 子 集 z 所 服从 的 最 优 分 布 of 应 满足 


In q; (aj) = Eiz; [In p(x, z)] + const , (14.39) 


exp (Eiz; [ln p (x, z)] ) 
f exp (Ey; [In p (x, z)] )dz; ` 
换言之 , 在 式 (14.35) 这 个 假设 下 , 变量 子 集 zj 最 接近 真实 情形 的 分 布 由 
式 (14.40) 给 出 . | a 
显然 , 基于 式 (14.35) 的 假设 , 通过 恰当 地 分 割 独立 变量 子 集 zj 并 选择 q; 服 
从 的 分 布 , Eig; [In p(x, 2)| 往往 有 闭 式 解 , 这 使 得 基于 式 (14.40) 能 高 效 地 对 隐 变 


量 z 进行 推断 . 事实 上 , 由 式 (14.38) 可 看 出 , 对 变量 zj 分 布 a 进行 估计 时 融合 
WW ai bbt. com 0000n uu 
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mean 指 期 望 , field 则 是 
指 分 布 . 
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T 2; 之 外 的 其 他 ziz; 的 信息 , 这 是 通过 联合 似 然 函 数 Inp(x,z) 在 zj 之 外 的 隐 
变量 分 布 上 求 期 望 得 到 的 , 因此 亦 称 “平均 场 ”(mean field) 方 法 . 

在 实践 中 使 用 变 分 法 时 ， ee no 以 及 假 
设 各 变量 子 集 服从 何 种 分 布 , 在 此 基础 上 套用 式 (14.40) 的 结论 再 结合 EM 算法 
即 可 进行 概率 图 模型 的 推 新 和 参数 估计 . 显然 , 车 隐 变 量 的 拆 解 或 变量 子 集 的 
分 布 假设 不 当 , 将 会 导致 变 分 法 效率 低 、 效 果 差 . | 


14.6 话题 模型 
话题 模型 (topic model) 是 一 族 生 成 式 有 向 图 模型 , 主要 用 于 处 理 离散 型 的 
数据 (如 文本 集合 ), 在 信息 检索 、 目 然 语 言 处 理 等 领 领域 有 广泛 应 用 . BAKA oe 
雷 分 配 模 型 (Latent Dirichlet Allocation, 简称 LDA) 是 话题 模型 的 典型 代表 . 
我 们 先 来 了 解 一 下 话题 模型 中 的 几 个 概念 : 词 (word)、 文 档 (document) 和 


话题 (topic). 具体 来 说 ,“ 词 ”是 待 处 理 数据 的 基本 离散 单元 , 例如 在 文本 处 理 


例如 若 把 图 像 中 的 小 块 
看 作 “ 词 ”， 则 可 将 图 像 
表示 为 词 袋 ， 于 是 话题 模 
型 也 可 用 于 图 像 数据 . 


通常 需 对 词 频 做 一 些 
处 理 , 例如 去 除 “ 停 用 记 
表 ” 中 的 词 等 . 


狄 利克 雷 分 布 参 见 附录 
C.1.6. 


任务 中 , 一 个 词 就 是 一 个 英文 单词 或 有 独立 意义 的 中 文 词 . “文档 ”是 待 处 理 
的 数据 对 象 , 它 由 一 组 词组 成 , 这 些 词 在 文档 中 是 不 计 顺 序 的 , 例如 一 篇 论文 、 
一 个 网 页 都 可 看 作 一 个 文档 ; 这 样 的 表示 方式 称 为 “ 词 袋 ”(bag-of-words). 数 
据 对 象 只 要 能 用 词 袋 描述 , 就 可 使 用 话题 模型 . “话题 ”表示 一 个 概念 , 具体 表 
示 为 一 系列 相关 的 词 , 以 及 它们 在 该 概念 下 出 现 的 概率 . 

形象 地 说 , 如 图 14.11 所 示 , 一 个 话题 就 像 是 一 个 箱子 , 里 面 装 者 在 这 
个 概念 下 出 现 概率 较 高 的 那些 词 ， 不 妨 假定 数据 集中 一 共 包含 K 个 话题 
和 了 篇 文档 , 文档 中 的 词 来 自 一 个 包含 N 个 词 的 词典 ， 我 们 用 人 个 N 维 
问 量 W = {w w... wr) 表示 数据 集 ( 即 文档 集合 ), KAN ENE Bx 
(RS LD lt) K) 表示 话题 ， 其 中 w, € RN 的 第 个 分 量 win 表示 文档 t 中 词 
n 的 词 频 ， 大 ERY 的 第 nn 个 分 量 Ben 表示 话题 6 中 词 ”的 词 频 . 

在 现实 任务 中 可 通过 统计 文档 中 出 现 的 词 来 获得 词 频 癌 量 wi (i = 
1,2,...,7), 但 通常 并 不 知道 这 组 文档 谈论 了 哪些 话题 , 也 不 知道 每 篇 文档 与 哪 
此 话题 有 R. LDA 从 生成 式 模型 的 角度 来 看 竺 文档 和 话题 . 具体 来 说 , LDA Å 
为 每 篇 文档 包含 多 个 话题 ; 不 妨 用 向 量 O e RE 表示 文档 t 中 所 包含 的 每 个 话 
题 的 比例 , Bi 即 表示 文档 上 中 包含 话题 k 的 比例 , 进而 通过 下 面 的 步骤 由 话 
题 “ 生 成 ”文档 t: | 


(1) 根据 参数 为 的 狄 利克 雷 分 布 随机 采样 一 个 话题 分 布 96， 


(2) 按 如 下 步骤 生成 文档 中 的 N 个 词 
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se 0.04 
sH i 0.01 
话题 。 0.01 
桨 声 灯 影 里 的 秦淮 河 O 
作者 : 朱自清 
PONE on ©) 
一 九 二 三 年 八 月 的 一 晚 ， 我 和 平 SHAM, ARAMA. Ë 
伯 同 游 秦淮 河 ; 平 伯 是 初 泛 ， 我 是 重 格 里 映 着 红色 蓝 色 的 玻璃 ; 玻璃 上 有 on 
RT. ADATA LAT’, Æ HEM IER RRL A “E 
gymek, GARRY, RET HERR, OR EE _ 
船 。 于 龙 桨 声 泪 一 一 沼 ， 我 们 开始 领 BROS LRRAT So ORE E © 
文档 Hb AR IT A EAA TELESE at ap E È 8) Hey fay PHBL 4g — 


滋味 了 。 Ra LORRY HT, Bi RR ® | 


RHETT BAAS, reae RIR, Tiao Eiti H KO 
RR fo ASHE, EGA, redo WF. HF, TREE, Tupi, T 
HE AS IL a AS HOR 以 顾盼 两 岸 的 河 房 。 太 船上 也 个 


觉 着 $, 就 是 觉 着 向 Ra e+ we Me) AEE PIE ET. Ae 的 顶 
能 引起 来 客 们 的 情 竟 ， 如 奈 淮 河 的 船 一 一 律 是 着 灯 彩 4 灯 芍 少 少 一 明暗 - © 
一 样 。 东 淮河 的 船 约略 可 分 为 两 种 ; Ske, ITER d 
一 是 大 船 ， 一 是 小 船 ， 就 是 所 请 “七 到 总 还 你 一 个 灯 彩 。 这 灯 彩 实在 是 最 的 
mt” . kelmak, Tezat fA A Oo RU. Meee FR OL, 
Ao Pi ik ty Ff ihe Hak kil gt kas & te ty ok O 


P, EEA KE KIG ia 






话题 指派 


图 14.11 LDA 的 文档 生成 过 程 示意 


(a) 根据 ©, 进行 话题 指派 , 得 到 文档 中 词 的 话题 ay; 
(b) 根据 指派 的 话题 所 对 应 的 词 频 分 布 Bk 随机 采样 生成 词 


14.11 演示 出 根据 以 上 步骤 生成 文档 的 过 程 . 显然 , 这 样 生成 的 文档 上 自 
然 地 以 不 同比 例 包 含 多 个 话题 (步骤 1), 文档 中 的 每 个 词 来 自 一 个 话题 (RR 
2b), 而 这 个 话题 是 依据 话题 比例 产生 的 (步骤 2a). 


图 14.12 描述 了 LDA 的 变量 关系 , 其 中 文档 中 的 词 频 wen 是 唯一 的 已 观 
测 变量 , 它 依赖 于 对 这 个 词 进行 的 话题 指派 zn, 以 及 话题 所 对 应 的 词 频 Bk; 同 
时 , 话题 指派 zn 依赖 于 话题 分 布 9,，6y 依赖 于 狄 利克 雷 分 布 的 参数 a, 而 话 
题词 频 则 依赖 于 参数 7 





14.12 LDA 的 盘 式 记 法 图 


于 是 , LDA 模型 对 应 的 概率 分 布 为 
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参见 附录 C.1.5. 


训练 文档 集 对 应 的 词 频 . 
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p(W, z, 3,0 | œ, n) =; 


T K N | 

[[z(e | a) | z(e， |n) | (| 可 , (14.41) 
t=1 © i=1 n=1 | | 

其 中 p(Bi | a) 和 p(B | n) 通常 分 别 设置 为 以 w 和 为 参数 的 KK 维和 N E 

利 元 雷 分 布 , 例如 





p(®; | a) = Tote ogi, (14.42) 


其 中 T() 是 Gamma 函数 . 显然 , a M n 是 模型 式 (14.41) 中 待 确定 的 参数 


给 定 训练 数据 W = fa .or LDA 的 模型 参数 可 通过 极 大 似 然 
法 估计 , 即 寻找 a Fl 以 最 大 化 对 数 似 然 


T 
LL(a,n) = 3 (w | a,n) I (14.43) 


但 由 于 p(w; | a,n) 不 易 计 算 , 式 (14. nee 因此 实践 中 常 采 用 变 分 
法 来 求 取 近似 解 . 


车 模型 已 知 , 即 参数 a 和 7 已 确定 , 则 根据 词 频 wn 来 推断 文档 集 所 对 应 
的 话题 结构 ( 即 推断 Or, Bk 和 zn) 可 通过 求解 
p(W, 2, 8,0 | on) © 
p(W | a,n) 


然而 由 于 分 母 上 的 p(W | a,n) 难以 获取 , 式 (14. 44)3 难以 直接 求解 因此 在 实践 
中 常 采 用 计 布 斯 采样 或 变 分 法 进行 近似 推断 . 


On B,9 | W,a,n) = (14.44) 


14.7 阅读 材料 


概率 图 模型 方面 已 经 有 专门 的 书籍 如 [Koller and Friedman, 2009]. 


[Pearl, 1982] 倡导 了 贝 叶 斯 网 的 研究 , [Pearl, 1988] 对 这 方面 的 早期 研究 工 
作 进 行 了 总 结 . 马尔 可 夫 随 机 场 由 [Geman and Geman, 1984] 提出 . 现实 应 用 
中 使 用 的 模型 经 常 是 贝 叶 斯 网 与 马尔 可 夫 随 机 场 的 结合 . 隐 马 尔 可 夫 模 型 及 
其 在 语音 识别 中 的 应 用 可 参阅 [Rabiner, 1989]. 条 件 随 机 场 由 [Lafferty et al., 


2001] 提出 ， 更 多 的 由 容 可 参阅 Sutton and McCallum, 2012). 
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| ARAB BA” FBR AH 
数目 无 须 事先 指定 ， 是 贝 
叶 斯 学 习 方 法 的 重要 发 展 . 
贝 叶 斯 学 习 参 见 p.164. 
LSA 是 SVD 在 文本 数据 
上 的 变 体 . 


参见 p.266. 
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信念 传播 算法 最 早 由 [Pearl, 1986) 作为 精确 推断 技术 提出 , 后 来 衍生 出 


多 种 近似 推断 算法 .对 一 般 的 带 环 图 , 信念 传播 算法 需 在 初始 化 、 消 息 传递 


等 环节 进行 调整 ， 由 此 形成 了 和 迭代 信念 传播 算法 (Loopy Belief Propagation) 
[Murphy et al., 1999], 但 其 理论 性 质 尚 不 清楚 ， 这 方面 的 进展 可 参阅 [Mooij 
and Kappen, 2007; Weiss, 2000]. 有 些 带 环 图 可 先 用 “因子 图 ”(factor graph) 
[Kschischang et al., 2001] 描述 , 再 转化 为 因子 树 (factor tree) 进行 信念 传播 . 对 
任意 图 结构 的 信念 传播 已 有 一 些 研究 [Lauritzen and Spiegelhalter, 1988]. 近来 
随 着 并 行 计算 技术 的 发 展 , 信念 传播 的 并 行 加 速 实现 受到 关注 , 例如 [Gonzalez 
et al., 2009] 提出 re 近似 推断 的 概念 并 设计 出 多 核 并 行 信念 传播 算法 , 其 时 间 
开销 随 内 核 数 的 增加 而 线性 降低 

概率 图 模型 的 建 模 和 推断 , 尤其 是 变 分 推断 在 20 世纪 90 年 代 中 期 逐步 发 
展 成 熟 , Jordan, 1998] 对 这 个 阶段 的 主要 成 果 进行 了 总 结 . 关于 变 分 推断 的 更 
多 内 容 可 参阅 [Wainwright and Jordan, 2008]. | 

图 模型 带 来 的 一 大 好 处 是 使 得 人 们 能 直观 、 快 速 地 针对 具体 任务 定义 模 
型 . LDA [Blei et al., 2003] 是 这 方面 的 重要 代表 , 由 它 产 生 了 很 多 变 体 , 关于 这 
方面 的 内 容 可 参阅 [Blei, 2012]. 概率 图 模型 的 一 个 发 展 方向 是 使 得 模型 的 结构 


能 对 数据 有 一 定 的 自 适应 能 力 , 即 “ 非 参数 化 ”(non-parametric) 方法 , 例如 层 


次 化 狄 利克 雷 过 程 模 型 [Teh et al., 2006]、 无 限 隐 特 征 模型 [Ghahramani and ~ 

Griffiths, 2006] 等 . | s 
话题 模型 包含 了 多 种 模型 , 其 中 有 些 并 不 采用 贝 叶 斯 学 习 方 法 , 例如 PLSA 

(概率 隐语 义 分 析 ) [Hofmann, 2001], 它 是 LSA (隐语 义 分 析 ) 的 概率 扩展 . 

”蒙特 卡 罗 方 法 是 二 十 世纪 四 十 年 代 产 生 的 一 类 基于 概率 统计 理论 、 使 用 
随机 数 来 解决 问题 的 数值 计算 方法 , MCMC 是 马尔 可 夫 链 与 蒙特 卡 罗 方法 的 
结合 , 最 早 由 [Pear], 1987] 引入 贝 叶 斯 网 推断 . 关于 MCMC 在 概率 推断 中 的 应 
用 可 参阅 (Neal, 1993], 更 多 关于 MCMC 的 内 容 可 参阅 [Andrieu et al., 2003; 
Gilks et al., 1996]. | 
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14.1 ， 试用 盘 式 记 法 表示 条 件 随 机 场 和 朴素 贝 叶 斯 分 类 器 . 


14.2 ， 试 证 明 图 模型 中 的 局 部 马尔 可 夫 性 : 给 定 某 变 量 的 邻接 变量 , 则 该 变 
” 量 条 件 独立 于 其 他 变量 . 


14.3 ” 试 证 明 图 模型 中 的 成 对 马尔 可 夫 性 : 给 定 其 他 所 有 变量 , 则 两 个 非 邻 
接 变 量 条 件 独立 . 


14.4 ” 试 述 在 马尔 可 夫 随 机 场 中 为 何 仅 需 对 极 大 团 定义 势 函 数 . 
14.5 ”比较 条 件 随 机 场 和 对 率 回归 , 试 析 其 异同 . 


14.6 ” 试 证 明 变量 消去 法 的 计算 复杂 s 度 随 图 模型 中 极 大 团 规模 的 增长 而 呈 
指数 增长 , 但 随 结 皮 数 的 增长 未 必 呈 指数 增长 . 


14.7 ” 吉 布 斯 采样 可 看 作 MH 算法 的 特例 ， mR rR Be “拒绝 采 
样 ” 策 略 , 试 述 这 样 做 的 好 处 . 


14.8 ”平均 场 是 一 种 近似 推断 方法 . 考虑 式 (14.32), 试 析 平均 场 方法 求解 的 
近似 问题 与 原 问题 的 差异 , 以 及 实践 中 如 何 选择 变量 服从 的 先 验 分 布 . 


14.9* ”从 网 上 下 载 或 自己 编程 实现 LDA, 试 分 析 金 庸 作品 《天 龙 八 部 》 中 
每 十 回 的 话题 演变 情况 . 


14.10* ” 试 设计 一 个 无 须 事 先 指定 话题 数目 的 LDA 改进 算法 . 
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小 故事 : 概率 图 模型 奠基 人 朱 迪 亚 。 珀 尔 
说 起 概率 图 模型 ,就 必然 要 谈 到 犹太 裔 美国 计算 机 科学 
RAI W « HK (Judea Pearl, 1936 一 ). 珀 尔 出 生 于 特 拉 
维 夫 , 1960 年 他 在 以 色 列 理工 学 院 电 子 工 程 本 科 毕 业 后 来 | 
到 美国 , 在 Rutgers 大 学 和 布鲁克 林 理 工学 院 分 别 获得 物理 
学 硕士 和 电子 工程 博士 学 位 . 1965 年 博士 毕业 后 进入 RCA 
研究 实验 室 从 事 超 导 存储 方面 的 工作 , 1970 年 到 加 州 大 学 洛杉矶 分 校 任教 
ES 早期 的 主流 人 工 智能 研究 专注 于 以 逻辑 为 基础 来 进行 形式 化 和 推理 , 但 这 
样 很 难 定量 地 对 不 确定 性 事件 进行 表达 和 处 理 . 珀 尔 在 二 十 世纪 七 十 年 代 将 概 
率 方法 引入 人 工 智能 , 开创 了 贝 叶 斯 网 的 研究 , 提出 了 信念 传播 算法 , 催生 了 概 
率 图 模型 这 一 大 类 技术 , 他 还 以 贝 叶 斯 网 为 工具 开创 了 因果 推理 方面 的 研究 . 
由 于 对 人 工 智能 中 概率 与 因果 推理 的 重大 贡献 , 他 获得 2011 年 图 灵 奖 , 此 前 他 
TAAA ER ACM 与 AAAI 联合 颁发 的 2003 年 艾 伦 。 纽 厄 尔 奖 . ACM 评价 珀 尔 在 人 
或 架设 了 计算 机 科学 与 其 ” 工 智能 领域 的 贡献 已 扩展 到 诸多 学 科 领 域 ，“ 使 统计 学 、 心 理学 、 医 学 以 及 社 
他 学 各 析 本 的 章 直 科学 会 科学 中 因果 性 的 理解 产生 了 革命 性 的 变化 ” .2011 年 玛 尔 还 获得 科学 哲学 领 
人 工 智能 先驱 Allen Newell 上 域 最 高 奖 拉 卡 托 斯 奖 . 
(1927-1992) 命名 .机 器 
学 习 界 的 另 一 位 著名 学 者 珀 尔 之 子 丹 尼 尔 是 《华尔街 日 报 》 驻 南亚 记者 ，“9。11” 事 件 后 他 在 书 
Michael Jean 在 2009 千 ” 基 斯 坦 追 踪 报 道 激进 武装 组 织 时 被 绑架 审讯 并 残忍 地 斩首 , A EL, H 
| 尔 此 后 筹办 了 丹尼尔 。 珀 尔 基金 会 , 并 参与 了 很 多 致力 于 促进 世界 民族 和 平 共 
处 的 活动 . 
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所 有 预测 模型 在 广义 
上 都 可 称 为 一 个 或 一 组 
“规则 ”，, 但 规则 学 习 中 
的 “规则 ”是 狭义 的 , F 
实 上 约定 俗 成 地 省 略 了 
“HR” LF. 


在 数理 逻辑 中 “文字 ” 
专 指 原子 公式 (atom) 及 其 


否定 . 


第 15 章 规则 学 习 


15.1 基本 概念 


机 器 学 习 中 的 “规则 ”(rule) 通 常 是 指 语义 明确 、 能 描述 数据 分 布 所 
隐 含 的 客观 规律 或 领域 概念 、 可 写成 “ 若 …… T ”形式 的 逻辑 规则 
[Fiirnkranz et al., 2012]. “规则 学 习 ”(rule learning) 是 从 训练 数据 中 学 习 出 
一 组 能 用 于 对 未 见 示 例 进行 判别 的 规则 . 

形式 化 地 看 , 一 条 规则 形 如 ， 


DAABA AfL, (15.1) 


其 中 人 逻辑 蕴含 符号 “+-” 右 边 部 分 称 为 “规则 体 ”(body), 表示 该 条 规则 的 前 
提 , 左边 部 分 称 为 “规则 头 ”(head), 表示 该 条 规则 的 结果 . 规则 体 是 由 逻辑 
XF (literal) fx 组 成 的 合 取 式 (conjunction), 其 中 合 取 符号 “入 ”用 来 表示 “并 
H”. 每 个 文字 f 都 是 对 示例 属性 进行 检验 的 布尔 表达 式 , 例如 “(色泽 = 乌 
黑 )” 或 “-( 根 蒂 = 硬 挺 )”. 二 是 规则 体 中 逻辑 文字 的 个 数 , 称 为 规则 的 长 度 . 
规则 头 的 “@” 同 样 是 逻辑 文字 , 一 般 用 来 表示 规则 所 判定 的 目标 类 别 或 概念 ， 
例如 “好 瓜 ”. 这 样 的 逻辑 规则 也 被 称 为 “fthen 规则 ”. 

与 神经 网 络 、 支 持 向 量 机 这 样 的 “黑箱 模型 ” 相 比 , 规则 学 习 具 有 更 好 的 
可 解释 性 , 能 使 用 户 更 直观 地 对 判别 过 程 有 所 了 解 . 另 一 方面 , 数理 逻辑 具有 
极 强 的 表达 能 力 , 绝 大 多 数 人 类 知识 都 能 通过 数理 逻辑 进行 简洁 的 刻画 和 表达 . 
例如 “父亲 的 父亲 是 爷爷 ”这 样 的 知识 不 易 用 函数 式 描 述 , 而 用 一 阶 逻 辑 则 可 


”方便 地 写 为 “和 爷爷 (X,Y) 全 父亲 (X Z) 人 父亲 (2,Y)”, 因此 , 规则 学 习 能 


自然 地 在 学 习 过 程 中 引入 领域 知识 . 此 外 , 逻辑 规则 的 抽象 描述 能 力 在 处 理 一 
些 高 度 复杂 的 AI 任务 时 具有 显著 的 优势 , 例如 在 问答 系统 中 有 时 可 能 遇 到 非 
常 多 、 甚 至 无 穷 种 可 能 的 答案 , 此 时 若 能 基于 逻辑 规则 进行 抽象 表述 或 者 推理 ， 
则 将 带 来 极 大 的 便利 . 

假定 我 们 从 西瓜 数据 集 学 得 规则 集合 R: 


od EN: ET GAR ED A CFE 
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西瓜 数据 集 2.0 IL p.76 
RA. 


亦 称 “ 缺 省 规则 ”， 可 
认为 是 一 种 特殊 的 元 规则 . 


第 15 章 规则 学 习 
规则 2: HEM. (纹理 = 模糊 ) . 


规则 1 的 长 度 为 2, 它 通过 判断 两 个 逻辑 文字 的 赋值 (valuation) 来 对 示例 进行 
判别 . 符合 该 规则 的 样本 (例如 西瓜 数据 集 2.0 中 的 样本 1) 称 为 被 该 规则 “ 覆 
盖 ”(cover). 需 注意 的 是 , 被 规则 1 覆盖 的 样本 是 好 瓜 , 但 没 被 规则 1 覆盖 的 未 
必 不 是 好 瓜 ; 只 有 被 规则 2 这 样 以 “- 好 瓜 ” 为 头 的 规则 覆盖 的 才 不 是 好 瓜 . 


BR, 规则 集合 中 的 每 条 规则 都 可 看 作 一 个 子 模型 , 规则 集合 是 这 些 子 模 


” ”型 的 一 个 集成 ， 当 同一 个 示例 被 判别 结果 不 同 的 多 条 规则 覆盖 时 , KEET 


“IMR?” (conflict), 解决 冲突 的 办 法 称 为 “冲突 消解 ”(conflict resolution). 常 
用 的 冲突 消解 集 略 有 投票 法 、 排 序 法 、 元 规则 法 等 . 投票 法 是 将 判别 相同 的 规 


” 则 数 最 多 的 结果 作为 最 终结 果 . 排序 法 是 在 规则 集合 上 定义 一 个 顺序 , ERE 


冲突 时 使 用 排序 最 前 的 规则 ; 相应 的 规则 学 习 过 程 称 为 “ 带 序 规则 ”(ordered 
rule) 学 习 或 “优先 级 规则 ”(priority rule) 学 习 . 元 规则 法 是 根据 领域 知识 事先 
设 定 一 些 “ 元 规则 ”(meta-rule), 即 关于 规则 的 规则 , 例如 “发 生 冲 突 时 使 用 
长 度 最 小 的 规则 ”, 然后 根据 元 规则 的 指导 来 使 用 规则 集 . | 


此 外 , MMAR FS MU E E VES Be aie A AT BEE ASL Bi, 例如 
前 述 规则 集合 及 无 法 对 “ 根 带 = 典 缩 ”、“ 脐 部 = 稍 四 ” 且 “ 纹 理 = 清晰 ”的 
示例 进行 判别 ; 这 种 情况 在 属性 数目 很 多 时 常 出 现 . 因此 , 规则 学 习 算法 通常 会 
设置 一 条 “默认 规则 ”(default rule), 由 它 来 处 理 规则 集合 未 禾 访 的 样本 ; 例如 
为 及 增 加 一 条 默认 规则 : “未 被 规则 1，2 上 覆盖 的 都 不 是 好 瓜 ”. 


从 形式 语言 表达 能 力 而 言 ， 规则 可 分 为 两 类 : “命题 规则 ” (propositional | 
rule) 和 “一 阶 规则 ”(first-order rule)， 前 者 是 由 “原子 命题 ”(propositional 
atom) 和 多 辑 连接 词 “与 ”( 信 )、“ 或 ”(V)、“ 非 ”(-) 和 “蕴含 ”(<-) 构 成 的 
简单 陈述 句 ; 例如 规则 集 R 就 是 一 个 命题 规则 集 ,“ 根 带 = 赚 缩 ”“ 脐 部 = 四 
陷 ” 都 是 原子 命题 . 后 者 的 基本 成 分 是 能 描述 事物 的 属性 或 关系 的 “原子 公 
st” (atomic formula), 例如 表达 父子 关系 的 谓词 (predicate)“ 父 亲 (X,Y)” 就 


”是 原子 公式 , 再 如 表示 加 一 操作 “o(X) = 和 上 + 1” 的 函数 “ac(X)” 也 是 原子 


公式 . 如 果 进 一 步 用 谓词 “自然 数 (X)” 表 示 X EBRR, VX” RR “HF 


FER X BOL” , “SY” Zan “FETE Y 使 之 成 立 ”, 那么 “所 有 自然 数 加 1 都 


是 自然 数 ” 就 可 写作 “vX3Y (自然 数 (Y) — 自然 数 (X) A(Y = ol(X)))”, 或 
更 简洁 的 “YX (自然 数 (c(X)) 二 自然 数 (X))”. 这 样 的 规则 就 是 一 阶 规则 , 其 
中 X 和 了 称 为 逻辑 变量 ,“Y”“3” 分 别 表 示 “ 任 意 ” 和 “存在 ”, 用 于 限定 
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变量 的 取 值 范围 , 称 为 “量词 ” (quantifier). 显然 , 一 阶 规则 能 表达 复杂 的 关 


p.80 表 4.2 上 半 部 分 . 


349 


R, 因此 也 被 称 为 “关系 型 规则 ”(relational rule). 以 西瓜 数据 为 例 , 若 我 们 简 
单 地 把 属性 当 作 谓词 来 定义 示例 与 属性 值 之 间 的 关系 , 则 命题 规则 集 R 可 改写 
为 一 阶 规则 集 R : 


规则 1: 好 瓜 (X) AX, WEA) A 脐 部 (X, IBA) ; 
规则 2: -好 瓜 (X) 二 纹理 ( 义 , 模糊) . 


显然 , 从 形式 语言 系统 的 角度 来 看 , 命题 规则 是 一 阶 规则 的 特例 , 因此 一 阶 规则 
的 学 习 比 命题 规则 要 复杂 得 多 . 


15.2 FREH 


规则 学 习 的 目标 是 产生 一 个 能 覆盖 尽 可 能 多 的 样 例 的 规则 集 ， 最 直接 
Ky BOE FE “Fe ES i” (sequential covering), 即 逐 条 归纳 : 在 训练 集 上 每 学 
到 一 条 规则 , 就 将 该 规则 覆盖 的 训练 样 例 去 除 , 然后 以 剩 下 的 训练 样 例 组 
成 训练 集 重复 上 述 过 程 ， 由 于 每 次 只 处 理 一 部 分 数据 , 因此 也 被 称 为 “分 


ye (separate-and-conquer) 策 略 . 


我 们 以 命题 规则 学 习 为 例 来 考察 序 贯 覆盖 法 .命题 规则 的 规则 体 是 对 样 
例 属 性 值 进行 评估 的 布尔 函数 , 如 “色泽 = 青绿 ”“ 含 糖 率 < 0.2” 等 , 规则 
头 是 样 例 类 别 . 序 贯 覆盖 法 的 关键 是 如 何 从 训练 集 学 出 单条 规则 . 显然 , 对 规 
则 学 习 目 标 @, 产生 一 条 规则 就 是 寻找 最 优 的 一 组 逻辑 文字 来 构成 规则 体 ， 
这 是 一 个 搜索 问题 . 形式 化 地 说 , 给 定 正 例 集合 与 反例 集合 , 学 习 任 务 是 基于 
候选 文字 集合 F = {fi} 来 生成 最 优 规则 r， 在 命题 规则 学 习 中 , 候选 文字 是 
EU “RURE, 属性 值 ; ;)” 的 布尔 表达 式 , 其 中 属性 ; 表示 样 例 第 i 个 属性 ， 
属性 值 ; ; 表示 属性 ; 的 第 j 个 候选 值 , R(z,y) 则 是 判断 z、y 是 否 满足 关系 R 
的 二 元 布尔 函数 . \ 

最 简单 的 做 法 是 从 空 规则 “@ 二” 开始 , 将 正 例 类 别 作为 规则 头 , 再 逐个 
遍历 训练 集中 的 每 个 属性 及 取 值 , 尝试 将 其 作为 逻辑 文字 增加 到 规则 体 中 , 若 


能 使 当前 规则 体 仅 覆盖 正 例 , 则 由 此 产生 一 条 规则 , 然后 去 除 已 被 覆盖 的 正 例 
”并 基于 剩余 样本 尝试 生成 下 一 条 规则 . 


以 西瓜 数据 集 2.0 训练 集 为 例 , 首先 根据 第 1 个 样 例 生成 文字 “好 瓜 ” 和 
“色泽 = 青绿 ”加 入 规则 , 得 到 


E y 
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为 简便 起 见 ， 本 章 后 续 


REARS RE LBA 


辑 文字 ， 即 仅 以 f 为 候选 
RF, RA RAE. 


例如 不 含 任何 属性 的 空 
规则 , CRAMAR, 就 
是 一 条 比较 一 般 的 规则 . 


例如 直接 以 某 样 例 的 属 
性 取 值 形成 规则 , 该 规则 
仅 履 盖 此 样 例 , 就 是 一 条 
比较 特殊 的 规则 . 
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这 条 规则 覆盖 样 例 1, 6, 10 和 17, 其 中 有 两 个 正 例 和 两 个 反例 , 不 符合 “当前 
规则 仅 覆 盖 正 例 ” 的 条 件 . 于 是 , 我 们 尝试 将 该 命题 替换 为 基于 属性 “色泽 
形成 的 其 他 原子 命题 , 例如 “色泽 = 乌黑 ”; 然而 在 这 个 数据 集 上 , 这 样 的 操作 
不 能 产生 符合 条 件 的 规则 . 于 是 我 们 回 到 “色泽 = 青绿 ”, 尝试 增加 一 个 基于 其 
他 属性 的 原子 命题 , Olin “MARE” 


好 瓜 4 (色泽 = 青绿 ) 人 (ERA). 


该 规则 仍 覆 盖 了 反例 17. 于 是 我 们 将 第 二 个 命题 替换 为 基于 该 属性 形成 的 其 他 
原子 命题 , Glin “RP” : | | 


好 瓜 二 (色泽 = 青绿 ) A (ARTA). 


这 条 规则 不 覆盖 任何 反例 , 虽然 它 仅 覆 盖 一 个 正 例 , 但 已 满足 “当前 规则 仅 覆 
盖 正 例 ” 的 条 件 . 因此 我 们 保留 这 条 规则 并 去 除 它 覆 盖 的 样 例 6, 然后 将 剩 下 的 


9 个 样 例 用 作 训练 集 . 如 此 继续 , 我 们 将 得 到 : 


规则 1: 好 瓜 二 (色泽 = 青绿 ) 人 (MAGE); 
规则 2: 好 瓜 和- (色泽 = 青绿 ) A (ME PEM); 
”规则 3: 好 瓜 4 (色泽 = 乌黑 ) A (EE): 
规则 4: 好 瓜 所 (色泽 = 乌黑 ) A (纹理 = 稍 糊 ). 


这 个 规则 集 履 盖 了 所 有 正 例 , 未 覆盖 任何 反例 , 这 就 是 序 贯 覆盖 法 学 得 的 结果 . 


上 面 这 种 基于 穷尽 搜索 的 做 法 在 属性 和 候选 值 较 多 时 会 由 于 组 合 爆 
炸 而 不 可 行 ， 现实 任务 中 一 般 有 两 种 策略 来 产生 规则 : 第 一 种 是 “上 自 项 
H F” (top-down), 即 从 比较 一 般 的 规则 开始 ,逐渐 添加 新 文字 以 缩小 规 
则 履 盖 范围 , 直到 满足 预定 条 件 为 止 ; 亦 称 为 “生成 -测试 ”(generate-then- 


_test) 法 , 是 规则 逐渐 “ 特 化 ”(specialization) 的 过 程 . 第 二 种 策略 是 “ 自 底 向 


E” (bottom-up), 即 从 比较 特殊 的 规则 开始 , 逐渐 删除 文字 以 扩大 规则 覆盖 范 
H, 直到 满足 条 件 为 止 ; 亦 称 为 “数据 驱动 ” (data-driven) 法 , ARMA “We 
化 ”(generalization) 的 过 程 . 第 一 种 策略 是 覆盖 范围 从 大 往 小 搜索 规则 , 第 二 
种 策略 则 相反 ; 前 者 通常 更 容易 产生 泛 化 性 能 较 好 的 规则 , 而 后 者 则 更 适合 于 
训练 样本 较 少 的 情形 , 此 外 , 前 者 对 噪声 的 鲁 棒 性 比 后 者 要 强 得 多 . 因此 , 在 命 


题 规则 学 习 中 通常 使 用 第 一 种 策略 , 而 第 二 种 策略 在 一 阶 规则 学 习 这 类 假设 空 
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15.2 “ 序 贯 覆盖 


西瓜 数据 集 2.0 训练 集 
见 p.80 表 4.2 上 半 部 分 . 
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SEM SABES ERS. 

下 面 以 西瓜 数据 集 2.0 训练 集 为 例 来 展示 自 顶 向 下 的 规则 生成 方法 . 首先 
从 空 规 则 “好 瓜 和 ”开始 , 逐一 将 “属性 = 取 值 ”作为 原子 命题 加 入 空 规则 进 
行 考察 . 假定 基于 训练 集 准确 率 来 评估 规则 的 优 劣 n/m 表示 加 入 某 命题 后 新 
规则 在 训练 集 上 的 准确 率 , 其 中 m 为 覆盖 的 样 例 总 数 , n 为 覆盖 的 正 例 数 . 如 


”图 15.1 所 示 , 经 过 第 一 轮 评 佑 , “色泽 = 乌黑 ”和 “ 脐 部 = 凹陷 ”都 达到 了 最 高 


准确 率 3/4. 


色泽 二 青绿 (2/4) 根 $= 3t 缩 (2/2) 


g 
SHEER) A ] yp 声 = =R 0/1 
BF IK. 根基 一 = 3 i ( (3/5) 58 — 4H (1/1) 
ae = =i (4/6) 脐 部 一 凹陷 (2/2) 
a=; 清 A M (4/6) fik Re = ARIF (2/2) 


ROG) 两 轮 之 后 产生 单条 规则 : 
触感 一 醒 滑 (3/6) AK Eh RARE =) 


图 15.1 在 西瓜 数据 集 2.0 训练 集 上 “ 自 顶 向 下 ”生成 单条 规则 


”将 属性 次 序 最 靠 前 的 逻辑 文字 “色泽 = 乌黑 ”加 入 空 规则 , 得 到 


好 瓜 + (色泽 = 乌黑 ). 


然后 ， 对 上 面 这 条 规则 覆盖 的 样 例 通过 第 二 轮 评 估 可 发 现 , 将 图 15.1 中 的 五 


个 逻辑 文字 加 入 规则 后 都 能 达到 100% 准确 率 , 我 们 将 覆盖 样 例 最 多 、 且 属性 
UR PP ae Se a eB eS “OR” A, 于 是 得 到 结果 


oe 全 ( 包 洋 = 己 ie) A — tee. 


J AIRE We Be — UE 的 标准 , 在 上 面 的 例子 中 使 用 的 标 
准 是 : 先 考虑 规则 准确 率 , 准确 率 相 同时 考虑 履 盖 样 例 数 , 再 相同 时 考虑 属性 次 


序 . 现实 应 用 人 的 标准 . 
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此 外 , 在 上 面 的 例子 中 每 次 仅 考虑 一 个 “最 优 ”文字 , 这 通常 过 于 贪心 , 易 
陷入 局 部 最 优 . 为 缓解 这 个 问题 , 可 采用 一 些 相 对 温和 的 做 法 , 例如 采用 “集束 
搜索 ”(beam search), 即 每 轮 保留 最 优 的 b 个 逻辑 文字 , 在 下 一 轮 均 用 于 构建 
候选 集 , 再 把 候选 集中 最 优 的 5 个 留待 再 下 一 轮 使 用 . 图 15.1 中 车 采用 b= 2 
的 集束 搜索 , 则 第 一 轮 将 保留 准确 率 为 3/4 的 两 个 逻辑 文字 , 在 第 二 轮 评估 后 
就 能 获得 下 面 这 条 规则 , 其 准确 率 仍 为 100%, 但 是 覆盖 了 3 个 正 例 : 


好 瓜 全 (PREL) 人 GRRE =H). 


由 于 序 贯 覆盖 法 简单 有 效 , 几乎 所 有 规则 学 习 算 法 都 以 它 为 基本 框架 . 它 
能 方便 地 推广 到 多 分 类 问题 上 , 只 需 将 每 类 分 别处 理 即 可 : 当 学 习 关 于 第 c 类 
的 规则 时 , 将 所 有 属于 类 别 c 的 样本 作为 正 例 , 其 他 类 别 的 样本 作为 反例 . 


15.3 BATH 


规则 生成 本 质 上 是 一 个 贪心 搜索 过 程 , 需 有 一 定 的 机 制 来 缓解 过 拟 合 的 风 
决策 树 剪 枝 参见 43 节 .，” 险 , 最 常见 的 做 法 是 剪 枝 (pruning). 与 决策 树 相似 , 剪 枝 可 发 生 在 规则 生长 过 
程 中 , 即 “ 预 剪 校 ”, 也 可 发 生 在 规则 产生 后 , 即 “后 剪 枝 ”. 通常 是 基于 某 种 
性 能 度量 指标 来 评估 增 / 删 逻辑 文字 前 后 的 规则 性 能 ， 或 增 / 副 规 则 前 后 的 规则 
集 性 能 , 从 而 判断 是 否 要 进行 剪 枝 | | 
统计 显著 性 检验 参见 剪 枝 还 可 借助 统计 显著 性 检验 来 进行 例如 CN2 算法 [Clark and Niblett, 
oe 1989] 在 预 剪 枝 时 , 假设 用 规则 集 进行 预测 必须 显著 优 于 直接 基于 训练 样 例 集 
后 验 概率 分 布 进行 预测 . 为 便于 计算 , CN2 使 用 了 似 然 率 统计 量 (Likelihood 
Ratio Statistics, 简称 LRS). $ m4, m- 分 别 表示 训练 样 例 集 中 的 正 、 反 例 数 

目 , m4, M- 分 别 表示 规则 ( 集 ) 履 盖 的 正 、 反 例 数目 , WA 














ms- (wm Gr PN log go Can 7 ， (15.2) 


Ce ) Eee ) 


这 实际 上 是 一 种 信息 量 指标 , 衡量 了 规则 ( 集 ) 履 盖 样 例 的 分 布 与 训练 集 经 验 分 
布 的 差别 : LRS 越 大 , 说 明 采 用 规则 ( 集 ) 进 行 预测 与 直接 使 用 训练 集 正 、 反 例 
比率 进行 猜测 的 差别 越 大 ; LRS 越 小 , 说 明 规 则 ( 集 ) 的 效果 越 可 能 仅 是 偶然 现 
象 . 在 数据 量 比较 大 的 现实 任务 中 , 通常 设置 为 在 LRS 0.99) 时 CN2 


算法 才 停止 规则 ( 集 ) 生 长 . ag 
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15.3 BRL 


规则 学 习 中 常 称 为 “ 生 
长 集 ” (growing set) 和 
“ 剪 枝 集 ” (pruning set). 


RIPPER 全 称 Repeat- 
ed Incremental Pruning to 
Produce Error Reduction, 
WEKA 中 的 实现 称 为 
JRIP. 


图 15.2 中 重复 次 数 取 值 
k 时 亦 称 RIPPERK， 倒 如 
RIPPER5 意味 着 二 5. 


基于 IREP* 生成 规则 集 . 


后 处 理 . 
去 除 已 被 覆盖 的 样 例 . 
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Ja BY ae Ts HRE “mE” (Reduced Error Pruning, 简称 REP) 
[Brunk and Pazzani, 1991], 其 基本 做 法 是 : 将 样 例 集 划 分 为 训练 集 和 验证 集 ， 
从 训练 集 上 学 得 规则 集 R 后 进行 多 轮 剪 校 , 在 每 一 轮 穷 举 所 有 可 能 的 剪 梳 操 
E, 包括 删除 规则 中 某 个 文字 、 删 除 规则 结尾 文字 、 删 除 规则 尾部 多 个 文字 、 
删除 整 条 规则 等 , 然后 用 验证 集 对 尽 枝 产生 的 所 有 候选 规则 集 进行 评估 , 保留 
最 好 的 那个 规则 集 进 行 下 一 轮 剪 枝 , 如 此 继续 , 直到 无 法 通过 剪 枝 提 高 验证 集 
上 的 性 能 为 止 . 

REP 前 枝 通常 很 有 效 [Brunk and Pazzani, 1991], 但 其 复杂 度 是 O(m“)， 
m 为 训练 样 例 数目 . IREP (Incremental REP) [Fiirnkranz and Widmer, 1994] 
将 复杂 度 降 到 O(miog* m), 其 做 法 是 : 在 生成 每 条 规则 前 , 先 将 当前 样 例 集 
划分 为 训练 集 和 验证 集 , 在 训练 集 上 生成 一 条 规则 r, 立即 在 验证 集 上 对 其 进 
4TREP SYN, 得 到 规则 m; 将 r BOI, 在 更 新 后 的 样 例 集 上 重复 上 
述 过 程 . 显然 , REP ET ARIT, 而 IREP 仅 对 单条 规则 进行 剪 校 ， 
因此 后 者 比 前 者 更 高 效 . | 

若 将 剪 校 机 制 与 其 他 一 些 后 处 理 手段 结合 起 来 对 规则 集 进行 优化 , 则 往往 
能 获得 更 好 的 效果 . 以 著名 的 规则 学 习 算 法 RIPPER (Cohen, 1995] 为 例 , 其 泛 
化 性 能 超过 很 多 决策 树 算法 , 而 且 学 习 速 度 也 比 大 多 数 决策 树 算法 更 快 , 奥妙 
就 在 于 将 剪 枝 与 后 处 理 优化 相 结合 

RIPPER 算法 描述 如 图 15.2 所 示 . 它 先 使 用 IREP* 剪 枝 机 制 生成 规则 
R. IREP* [Cohen, 1995] 是 IREP 的 改进 , 主要 是 以 MHA) 取代 了 
TREP 使 用 的 准确 率 作 为 规则 性 能 度量 指标 , 在 剪 枝 时 删除 规则 尾部 的 多 个 文 
F, 并 在 最 终 得 到 规则 集 之 后 再 进行 一 次 IREP 894%. RIPPER 中 的 后 处 理 机 


输入 : 训练 样 例 集 万 ; 
重复 次 数 k. 

过 程 : 

1: R = IREP*(D); 

2 = 0; 

3: repeat 

4: R’ = PostOpt(R); 

5: D,;=NotCovered(R’,D); — 

ic Reh UR: 

8 1 一 4 十 十 ; 

9: untili=k 

输出 : 规则 集 尺 


15.2 RIPPER 算法 
-© ww ai bbt. com TO 00000 
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制 是 为 了 在 剪 枝 的 基础 上 进 一 步 提升 性 能 .对 只 中 的 每 条 规则 r;, RIPPER 为 


“ 它 产生 两 个 变 体 


: 基于 r; BRM, 用 IREP* 重新 生成 一 条 规则 vi, ALM RAS 
e" Il] (replacement rule); : | | 
o r: 对 ri 增加 文字 进行 特 化 , 然后 再 用 IREP* 剪 枝 生成 一 条 规则 w, 该 
a RA 修订 规则 Co i 


BRK 把 r, 和 zy 分 别 与 及 P r 之 外 的 规则 放 在 一 起 , 组 成 规则 集 R 和 
OR", 将 它们 与 及 一 起 进行 比较 ， 选择 最 优 的 规则 集 保留 下 来 这 就 是 图 15.2 中 


算法 第 4 行 所 做 的 操作 . 


为 什么 RIPPER 的 优化 策略 会 有 效 呢 ? 原因 很 简单 : 最 初生 成 及 的 时 候 ， 
规则 是 按 序 生成 的 , 每 条 规则 都 没有 对 其 后 产生 的 规则 加 以 考虑 , 这 样 的 贪心 
算法 本 质 常 导致 算法 陷入 局 部 最 优 ; RIPPER 的 后 处 理 优化 过 程 将 丸 中 的 所 
有 规则 放 在 一 起 重新 加 以 优化 , 恰 是 通过 全 局 的 考虑 来 缓解 贪心 算法 的 局 部 性 ， 
从 而 往往 能 得 到 更 好 的 效果 [Fiirnkranz et al., 2012}. 


| 15. 4 一 阶 规则 学 习 


| 5 A LK eH, dr MUI SI ve OAS <3 


KR” (relation), 而 关系 信息 在 很 多 任务 中 非常 重要 . 例如 , 我 们 在 现实 世界 挑 
o 选 西 瓜 时 , 通常 很 难 把 水 果 摊 上 所 有 西瓜 的 特征 用 属性 值 描述 出 来 , 因为 我 们 


很 难 判断 : 色泽 看 起 来 多 深 才 叫 “色泽 青绿 ”? MURA SRAM “mF YT 
间 ”? 比较 现实 的 做 法 是 将 西瓜 进行 相互 比较 , 例如 , “ 瓜 1 的 颜色 比 瓜 2 更 
深 , 并 且 瓜 1 的 根 带 比 瓜 2 更 暴 ”, 因此 “ 瓜 1 比 瓜 2 更 好 ”. 然而 , 这 已 超越 
了 命题 逻辑 的 表达 能 力 , 需 用 一 阶 效 辑 表 示 , 并 且 要 使 用 一 阶 规则 学 习 . 

对 西瓜 数据 , 我 们 不 妨 定义 : 


。 色泽 深度 : 乌黑 > 青绿 > RE: 

o EGRE: WES > ARIE > 硬挺 
PPLE: 沉 间 > 浊 响 > 清脆 ; 
纹理 清晰 度 : 清晰 > 稍 糊 > 模糊 ; 
-o 脐 部 凹陷 度 : 凹陷 > THI) > 平坦 ; 


* 触 感 硬度 R gs, HOOUOO0 
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表 15.1 西瓜 数据 集 5.0 
括号 内 数字 对 应 于 p.80 
表 42 中 的 样 例 编 号 。 ”色泽 更 深 (2, 1) ”色泽 更 深 (2, 6) 色泽 更 深 (2, 10) 色泽 更 深 (2, 14) 
| Se) Beet) eA) ere) 
色泽 更 深 深 (15, 16) 色泽 更 深 深 (15, 17) 色泽 更 深 深 (17, 14) 色泽 更 深 深 (17, 16) 
人 Ae i FEE (1, 7) erent) Ae ie SEE (1, 14) 
EET, 7) Hi 33 HE (17, 10) HLA EWE(17, 14) RR BEE (17, 15) 
敲 声 更 沉 (2, 1) 2) RUE ULC, 6) 敲 声 更 沉 (2, 7) 
敲 声 更 沉 (17, 7) HORRY 沉 (17, 10) REEI 沉 (17, 15) Æ EYL(17, 16) 
纹理 更 清 (1, 7) 纹理 更 清 (1, 14) 纹理 更 清 (1, 16) 纹理 更 清 (1, 17) 
纹理 更 清 (15, 14) ” 纹理 更 清 (15, 16) ” 纹理 更 清 (15, 17) 纹理 更 清 (17, 16) 
脐 部 更 止 (1, 6) 脐 部 更 上 四 (1, 7) 脐 部 更 四 (1, 10) ” 脐 部 更 四 (1, 15) 
脐 部 更 凹 (15, 10) RES, 16) ” 膀 部 更 凹 (17, 10) ” 膀 部 更 凹 (17, 16) 
UE EHEC, 6) MERC, 7) 触感 更 硬 (1, 10) 触感 更 硬 (1, 15) 
分 隔 线 上 半 部 分 为 背景 触感 更 硬 (17， 6) 触感 更 硬 (17, 7) ”触感 更 硬 (17, 10) ”触感 更 硬 (17, 15) 
知识 , 下 半 部 分 为 样 例 . 更 好 (1, 10) 更 好 (1, 14) 更 好 (1, 15) 更 好 (1, 16) 
| 更 好 (7, 14) 更 好 (7, 15) 更 好 (7, 16) 更 好 (7, 17) 
-更 好 (10, 1) 一 更 好 (10, 2) 一 更 好 (10, 3) 一 更 好 (10, 6) 
”一 更 好 (17, 2) -更 好 (17, 3) -更 好 (17, 6) -更 好 (17, 7) 


于 是 , 西瓜 数据 集 2.0 训练 集 就 转化 为 表 15.1 的 西瓜 数据 集 5.0. 这 样 的 
数据 直接 描述 了 样 例 间 的 关系 , 称 为 “关系 数据 ”(relational data), 其 中 由 
原样 本 属性 转化 而 来 的 “色泽 更 深 ”“ 根 蒂 更 虹 ” 等 原子 公式 称 为 “背景 知 
识 ”(background knowledge), 而 由 样本 类 别 转化 而 来 的 关于 “更 好 ”“ 一 更 
好 的 原子 公式 称 为 关系 数据 样 例 (examples). 从 西瓜 数据 集 5.0 可 学 出 这 样 


这 样 的 规则 亦 称 为 一 阶 的 一 阶 规则 


32-7 5 (clause). 


(VX,VY)( 更 好 (X,Y) <— RAEES (X, Y) 入 脐 部 更 中 (X,Y)) . 


显然 , 一 阶 规则 仍 是 式 (15.1) 的 形式 , 但 其 规则 头 、 规 则 体 都 是 一 阶 逻 辑 表 
达 式 , EAG) REER) o RENC .)” 是 关系 描述 所 对 应 - 
的 谓词, 个 体 对 象 “ 瓜 1”、“ 瓜 2” 被 逻辑 变量 “X”、“Y” 葵 换 . 全 称 量 
词 “vy” 表示 该 规则 对 所 有 个 体 对 象 都 成 立 ; 通常 , 在 一 阶 规则 中 所 有 出 现 的 变 


ERREKEN 因此 下 面 我 们 在 个 影响 理解 的 情况 下 将 省 略 量词 部 分 . 
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统计 学 习 一 般 是 基于 
“属性 - 值 ” 表示 , 这 与 命 
题 逻 辑 表 示 等 价 ; 此 类 学 
习 可 统称 为 “基于 命题 表 
示 的 学 习 ”. 


Bis ”规则 学 习 
一 阶 规则 有 强大 的 表达 能 力 , 例如 它 能 简洁 地 表达 递归 概念 , 如 
更 好 (X,Y) < 更 好 (X,2) 人 更 好 (2,Y) . 


一 阶 规则 学 习 能 容易 地 引入 领域 知识 , 这 是 它 相 对 于 命题 规则 学 习 的 另 一 
大 优势 . 在 命题 规则 学 习 乃 至 一 般 的 统计 学 习 中 , 车 欲 引入 领域 知识 , 通常 有 两 
种 做 法 : 在 现 有 属性 的 基础 上 基于 领域 知识 构造 出 新 属性 , 或 基于 领域 知识 设 
计 某 种 函数 机 制 ( 例 如 正则 化 ) 来 对 假设 空间 加 以 约束 . 然而 , 现实 任务 中 并 非 
所 有 的 领域 知识 都 能 容易 地 通过 属性 重 构 和 函数 约束 来 表达 . 例如 , 假定 获得 
了 包含 某 未 知 元 素 的 化 合 物 X, 欲 通过 试验 来 发 现 它 与 已 知 化 合 物 Y 的 反应 
JER. 我 们 可 多 次 重复 试验 , 测 出 每 次 结果 中 化 合 物 的 组 分 含量 . 虽然 我 们 
对 反应 中 的 未 知 元 素性 质 一 无 所 知 , 但 知道 一 些 普遍 成 立 的 化 学 原理 , 例如 金 
属 原子 一 般 产生 离子 键 、 氢 原子 之 间 一 般 都 是 共 价 键 等 , 并 且 也 了 解 已 知 元 素 
间 可 能 发 生 的 反应 . 有 了 这 些 领域 知识 , 重复 儿 次 试验 后 就 不 难 学 出 X 和 了 的 
反应 方程 式 , 还 可 能 推测 出 X 的 性 质 、 甚 至 发 现 新 的 分 子 和 元 素 . 类 似 这 样 的 
领域 知识 充斥 在 日 常生 活 与 各 类 任务 中 , 但 在 基于 命题 表示 的 学 习 中 加 以 利用 
却 非常 困难 . 


FOIL (First-Order Inductive Learner) [Quinlan, 1990] 是 著名 的 一 阶 规则 
学 习 算 法 , 它 遵循 序 贯 覆盖 框架 且 采 用 目 顶 癌 下 的 规则 归纳 策略 , 与 15.2 节 中 


”的 命题 规则 学 习 过 程 很 相似 . 但 由 于 逻辑 变量 的 存在 , FOIL 在 规则 生成 时 需 考 


虑 不 同 的 变量 组 合 . 例如 在 西瓜 数据 集 5.0 E, 对 “更 好 (X,Y)” 这 个 概念 , 最 


初 的 空 规则 是 | 
更 好 (X,Y) +. 
接 下 来 要 考虑 数据 中 所 有 其 他 谓词 以 及 各 种 变量 搭配 作为 候选 文字 . 新 加 
入 的 文字 应 包含 至 少 一 个 已 出 现 的 变量 , 否则 没有 任何 实质 意义 . 在 这 个 例子 
中 考虑 下 列 候选 文字 : | | 
“色泽 更 深 (XY)， CAERY,X) 色泽 更 深 (X, Z), GERZ, X), 
色泽 更 深 (Y, 2)， 色 泽 更 深 (2,Y)， 色 泽 更 深 (X, X), CRERUY,Y), 
Hee EEX, Y), | a 
敲 声 更 沉 (X, Y), 


ww ai bbt. com DODDDDD 
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决策 树 的 信息 增益 参见 
4.2.1 节 . 


这 实质 上 与 类 别 不 平衡 
性 有 关 , 参见 3.6 节 . 
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FOIL 使 用 “FOIL 增益 ” (FOIL gain) 来 选择 文字 : 








F-Gain Ss (io, TO — logs n ; (15.3) 
其 中 , he, 加 -分 别 为 增加 候选 文字 后 新 规则 所 履 盖 的 正 、 反 例 数 ; mj , m- 为 
原 规 则 覆盖 的 正 、 反 例 数 . FOIL 增益 与 决策 树 使 用 的 信息 增益 不 同 , 它 仅 考虑 
正 例 的 信息 量 , 并 且 用 新 规则 覆盖 的 正 例 数 作 为 权重 . 这 是 由 于 关系 数据 中 正 
例 数 往往 远 少 于 反例 数 , 因此 通常 对 正 例 应 赋予 更 多 的 关注 . 

在 西瓜 数据 集 5.0 的 例子 中 只 需 给 初始 的 空 规则 体 加 入 
“色泽 更 深 (X,7)” 或 “ 脐 部 更 凹 (X,Y)”,， 新 规则 就 能 覆盖 16 个 正 例 和 2 
个 反例 , 所 对 应 的 FOIL 增益 为 候选 最 大 值 16 x (logy 78 — logs 22) = 13.28. 假 
定 前 者 被 选中 , 则 得 到 | 


更 好 (X,Y) < 色泽 更 深 (X,Y)， 


该 规则 仍 覆 盖 2 个 反例 : “更 好 (15, 1)” 与 “更 好 (15, 6)” . FH, FOIL 像 命 
题 规 则 学 习 那 样 继续 增加 规则 体 长 度 , 最 终生 成 合适 的 单条 规则 加 入 规则 集 . 


此 后 , FOIL 使 用 后 剪 校对 规则 集 进行 优化 . 


若 人 允许 将 目标 谓词 作为 候选 文字 加 入 规则 体 , 则 FOIL 能 学 出 递归 规则 ; 
若 允 许 将 否定 形式 的 文字 f 作为 候选 , 则 往往 能 得 到 更 简洁 的 规则 集 . 

FOIL 可 大 致 看 作 命题 规则 学 习 与 归纳 逻辑 程序 设计 之 间 的 过 渡 , 其 自 顶 
向 下 的 规则 生成 过 程 不 能 支持 函数 和 逻辑 表达 式 嵌 套 , 因此 规则 表达 能 力 仍 有 
不 足 ; 但 它 是 把 命题 规则 学 习 过 程 通过 变量 蔡 换 等 操作 直接 转化 为 一 阶 规则 学 
J, 因此 比 一 般 归纳 逻辑 程序 设计 技术 更 高 效 . 


“155 BNE 罗 辑 程序 设计 


归纳 逻辑 程序 设计 (Inductive Logic Programming, 简称 ILP) 在 一 阶 规则 
学 习 中 引入 了 函数 和 逻辑 表达 式 幅 套 . 一 方面 , 这 使 得 机 器 学 习 系统 具备 了 更 
为 强大 的 表达 能 力 ; 另 一 方面 , ILP 可 看 作用 机 器 学 习 技 术 来 解决 基于 背景 知 
识 的 逻辑 程序 (logic program) 归纳 , 其 学 得 的 “规则 ”可 被 PROLOG 等 逻辑 | 
程序 设计 语言 直接 使 用 ， 

然而 , 函数 和 逻辑 表达 式 嵌 套 的 引入 也 带 来 了 计算 上 的 巨大 挑战 . 例 


如 , 给 定 一 TRR PM TERS, 它们 能 组 成 的 文字 有 P(X), PUO) 
ww ai bbt. com 口 口 口 口 
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P(f(f(X))) 等 无 穷 多 个 , 这 就 使 得 规则 学 习 过 程 中 可 能 的 候选 原子 公式 有 无 
穷 多 个 . 若 仍 采 用 命题 逻辑 规则 或 FOIL 学 习 那 样 自 项 向 下 的 规则 生成 过 程 ， 
则 在 增加 规则 长 度 时 将 因 无 法 列举 所 有 候选 文字 而 失败 . 实际 困难 还 不 止 这 
些 , 例如 计算 FOIL 增益 需 对 规则 覆盖 的 全 部 正 反 例 计数 , 而 在 引入 函数 和 风 
得 表达 式 嵌 套 之 后 这 也 变 得 不 可 行 


15. 5. 1 最 小 一 般 泛 化 


这 里 的 数字 是 瓜 的 编号 . 


归纳 逻辑 程序 设计 采用 自 底 向 上 的 规则 生成 策略 ， 直接 将 一 个 或 多 个 正 例 


所 对 应 的 具体 事实 (grounded fact) 作 为 初始 规则 , 再 对 规则 逐步 进行 泛 化 以 增 


加 其 对 样 例 的 覆盖 率 . 泛 化 操作 可 以 是 将 规则 中 的 党 量 蔡 换 为 逻辑 变量 , 也 可 
以 是 删除 规则 体 中 的 某 个 文字 . 


以 西瓜 数据 集 5.0 为 例 , 为 简便 起 见 ， 暂且 假定 “ERX, Y)” 仅 决定 于 
(X,Y) 取 值 相同 的 关系 ， 正 例 “更 好 (1 10)” 和 “更 好 (1,15)” 所 对 应 的 初始 
规则 分 别 为 


更 好 (1 10) 二 RE SEE (1, 10) A 声音 更 沉 (1, 10) A 脐 部 更 四 (1, 10) 
人 人 触感 更 硬 (1,10); 
aah 15) REER, E 15) A 触感 更 硬 (1， 


显然 , 这 两 条 规则 只 对 应 了 特殊 的 关系 数据 样 例 ， 难以 具有 泛 化 能 力 . 


”此 , 我 们 希望 把 这 样 的 “特殊 ”规则 转变 为 更 “一 般 ” 的 规则 . 为 达到 这 个 


目的 , 最 基础 的 技术 是 “最 小 一 般 泛 化 ”(Least General Generalization, 简称 


LGG) [Plotkin, 1970]. 


给 定 一 阶 公式 r 和 re, LGG 先 找 出 涉及 相 同 谓词 的 文字 , 然后 对 文字 
中 每 个 位 置 的 常量 逐一 进行 考察 , 若 常 量 在 两 个 文字 中 相同 则 保持 不 变 , 记 
为 LGG(t,t) = 二 否则 将 它们 敬 换 为 同一 个 新 变量 , 并 将 该 蔡 换 应 用 于 公式 
的 所 有 其 他 位 置 : 假定 这 两 个 不 同 的 常量 分 别 为 s, t, 新 变量 为 V, WEA 
LGG(s,t) = V, 并 在 以 后 所 有 出 现 LGG(s,z) 的 位 置 用 V 来 代替 . 例如 对 a 


例子 中 的 两 条 规则 , 先 比 较 “ 更 好 (1,10)” 和 “更 好 (1,15)”, 由 于 文字 中 常 


“10” 关 “15”, 因此 将 它们 都 替换 为 了 , 并 在 rr 和 ra PERADI ERA | 


BLAS “10” 和 “15” 都 替换 为 了 , 得 到 


更 好 (1 Y) Aida Be, Y) 入 声音 更 沉 (1, 10) 人 脐 部 更 凹 (1, Y) 


入 触感 更 便 (1, Y); 
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更 好 (1,Y) ARERO, Y) A REG, Y) 人 触感 更 硬 (1,Y)， 


然后 , LOG 忽略 ry 和 rs 中 不 含 共同 谓词 的 文字 , 因为 车 LOG 包含 某 条 
公式 所 没有 的 谓词 , 则 LOG 无 法 特 化 为 那 条 公式 . 容易 看 出 , 在 这 个 例子 中 需 
忽略 “声音 更 沉 (1, 10)” 这 个 文字 , 于 是 得 到 的 LGG 为 


更 好 (1,Y) e RRE, Y) A 膀 部 更 四 (1,Y) 人 触感 更 硬 (1,Y).， (15.4) 


式 (15.4) 仅 能 判断 瓜 1 是否 比 其 他 瓜 更 好 . 为 了 提升 其 泛 化 能 力 , 假定 另 有 
一 条 关于 瓜 2 的 初始 规则 


更 好 (2, 10) 人 颜色 更 深 (2, 10) A RAER (2, 10) A 禹 声 更 沉 (2, 10) 
入 脐 部 更 止 (2, 10) A 触感 更 硬 (2, 10) , (15.5) 


F fe BY OR By sh (15.4) 5 (15.5) LGG. 注意 到 文字 “更 好 (2,10)” 和 

“更 好 (1,Y)” 的 对 应 位 置 同 时 出 现 了 常量 “10” 与 变量 “Y”, 于 是 可 令 
LGG(10,Y) = 到 ,并 将 所 有 “10” 与 “Y” 成 对 出 现 的 位 置 均 替 换 为 六 .最 
ja, 令 LGG(2,1) = X 并 删 去 谓词 不 同 的 文字 ， 就 得 到 如 下 这 条 不 包含 常量 的 
一 般 规 则 : 


更 好 (X, Yo) — WEER, Yo) A REUX, Yo) A 触感 更 硬 (X Yo). 

上 面 的 例子 中 仅 考虑 了 肯定 文字 , 未 使 用 “- ”符号 . 实际 上 LGG 还 能 
行 更 复杂 的 泛 化 操作 . 此 外 , 上 面 还 假定 “更 好 (X,Y)” 的 初始 规则 仅 包含 变 ， 
EAA (X,Y) 的 关系 , 而 背景 知识 中 往往 包含 其 他 一 些 有 用 的 关系 , 因此 许多 
ILP 系统 采用 了 不 同 的 初始 规则 选择 方法 . 最 常用 的 是 RLGG (Relative Least _ 
General Generalization) [Plotkin, 1971], 它 在 计算 LGG 时 考虑 所 有 的 背景 知 
识 , 将 样 例 e 的 初始 规则 定义 为 e CK, 其 中 天 是 背景 知识 中 所 有 原子 的 合 取 . 

容易 证 明 , LGG 是 能 特 化 为 ri 和 rs 的 所 有 一 阶 公式 中 最 特殊 的 一 个 :不 
存在 既 能 特 化 为 r 和 rz, 也 能 泛 化 为 它们 的 LGG 的 一 阶 公式 x’. | 

在 归纳 逻辑 程序 设计 中 , 获得 LGG 之 后 , 可 将 其 看 作 单条 规则 加 入 规则 
集 , 最 后 再 用 前 几 节 介绍 的 技术 进一步 优化 , 例如 对 规则 集 进 行 后 剪 枝 等 . 
15.5.2 逆 归 结 

在 逻辑 学 中 , “演绎 ”(deduction) 与 “归纳 ”(induction) 是 人 类 认识 世界 


的 两 种 基本 方式 . 大 致 来 说 , 演绎 是 从 一 般 性 规律 出 发 来 探讨 具体 事物 , 而 归纳 
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政治 经 。 则 是 从 个 别 事物 出 发 概括 出 一 般 性 规律 一 般 数学 定理 证 明 是 演绎 实践 的 代表 ， 
Jevons 通过 数理 方法 论证 “而 机 器 学 习 显 然 是 属于 归纳 的 范畴 . 1965 F, 逻辑 学 家 J. A. Robinson 提出 ， 
是 明确 指出 叫 纳 是 演 年 ”一 阶 谓词 演算 中 的 演绎 推理 能 用 一 条 十 分 简洁 的 规则 描述 , 这 就 是 数理 罗 辑 
中 著名 的 归结 原理 (resolution principle) [Robinson, 1965]. 二 十 多 年 后 , 计算 机 
科学 家 S. Muggleton 和 W. Buntine 针对 归纳 推理 提出 了 “ 逆 归 绪 ”(inverse 
resolution) [Muggleton and Buntine, 1988], 这 对 归纳 逻辑 程序 设计 的 发 展 起 到 
了 重要 作用 . | 

基于 归结 原理 , 我 们 可 将 貌似 复杂 的 逻辑 规则 与 背景 知识 联系 起 来 化 繁 为 
fl; 而 基于 逆 归 结 , 我 们 可 基于 背景 知识 来 发 明 新 的 概念 和 关系 . 下 面 我 们 先 以 

较为 简单 的 命题 演算 为 例 , 来 看 看 归结 、 逆 归结 是 怎么 回 事 . 
假定 两 个 逻辑 表达 式 Cy 和 Co 成 立 , 且 分 别 包 含 了 互补 项 L 与 Lo; 不 失 
一 般 性 , $ L= L = nL, C1 = AVL, C2 = BV AL. 归结 原理 告诉 我 们 , 通过 
演绎 推理 能 消去 工 而 得 到 “归结 项 ”C = AV B. 若 定义 析 合 范式 的 删除 操作 


(AV B)—{B} =A, ”i 
则 归结 过 程 可 表述 为 | 
C = (Ci — {L} V (C2 — {51}), 本 
简 记 为 E o 
| CHC 7 (15.8) 


图 15.3 给 出 了 归结 原理 的 一 个 直观 例 示 . 


AVL BV AL 


AVB 


图 15.3 归结 原理 例 示 


与 上 面 的 过 程 相反 , 逆 归 结 研究 的 是 在 已 知 C 和 某 个 C 的 情况 下 如 何 得 
到 Cj Aj). 假定 已 知 C 和 CLR Co, 则 由 式 (15.7), 该 过 程 可 表述 为 


© @=(0- (01 -DVD (15.9) 
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EE AS PE Se ER P AF SK A ie? (Muggleton, 1995] 定义 了 四 种 完备 

的 逆 归 结 操作 . 若 以 规则 形式 p 人 9 等 价 地 表达 p Vq, 并 假定 用 小 写字 母 表 
示 逻 辑 文 字 、 大 写字 母 表示 合 取 式 组 成 的 逻辑 子 铝 , 则 这 四 种 操作 是 : | 


p+ AAB qA 


H ti 15.1 
KK MAC (absorption) GR ea (15.10) 
Pree | AAB AN | 

HIH (identification) ; E To (15.11) 

AAB A 
Al #4] (intra-construction) : Ne (15.12) 
B A 
互 构 (inter-construction) : paras T, (15.13) 


prAB r&A qerAC 


这 里 我 们 用 $ ETX AS Y, EAR AESEXHY. 上 述 规则 中 , X 的 子 
句 或 是 Y 的 归结 项 或 是 并 Do 而 Y 中 出 现 的 新 逻辑 文字 则 
可 看 作 通 过 归纳 学 到 的 新 命题 . 

归结 、 BARRADES EI- MEEKER: 与 命题 逻辑 的 主要 不 同 之 
处 是 , Bae VAS. Wa Sse Bs RET GREE. 

“置换 ”(substitution) 是 用 某 些 项 来 替换 逻辑 表达 式 中 的 变量 ， 例 如 
用 0 = {1/X,2/Y} 置换 “C = 色泽 更 深 (X,Y) 人 敲 声 更 沉 (X,Y)” 可 得 到 
“C! = C0 = 色泽 更 深 (1,2) 人 殴 声 更 沉 (1,2)”, 其 中 {X,Y} 称 为 0 的 作用 
域 (domain). 与 代数 中 的 置换 类 似 , 一 阶 逻 辑 中 也 有 “复合 置换 ”和 “ 逆 置 
换 ”. 例如 先 用 0 = {Y/X} 4 X BRAY, 再 用 入 = {1/Y} 将 Y 替换 为 1, 这 
样 的 复合 操作 记 为 9o 入 ; 9 的 道 置换 则 记 为 07t = {X/Y}. 

“ 合 一 ”(unification) 是 用 一 种 变量 置换 令 两 个 或 多 个 逻辑 表达 式 相 
等 ， 例 如 对 “4 = 色泽 更 深 (1, 匀 )” 和 “B = 色泽 更 深 (Y,2)”, 可 用 0 = 
{2/X,1/Y} 使 “40 = BO = 色泽 更 深 (1,2)”; DEN BR A A Be “AG 
HK” (unifiable), PK OA A M BW “G—WF” (unifier). 4 6 是 一 组 一 阶 逻 
辑 表达 式 W 的 合 一 化 子 , AW 的 任意 合 一 化 子 9 均 存 在 相应 的 置换 入 使 


9 = 50d, 则 称 5 为 人 W 的 “最 一 般 合 一 置换 ”或 “最 一 般 合 一 化 子 ”(most 


general unifier, MW MGU), 这 是 归纳 逻辑 程序 中 最 重要 的 概念 之 一 . 例如 
“色泽 更 深 (1,Y)” 和 “色泽 更 深 (X,Y)” 能 被 91 = {1/X}, 02 = {1/X, 2/Y}, 
03 = {1/Z,Z/X} 合 一 , 但 仅 有 0 是 它们 的 MGU. 

一 阶 逻 辑 进行 归结 时 , 需 利用 合 一 操作 来 搜索 互补 项 Zi 和 Lo. 对 两 个 一 


阶 人 逻辑 表达 式 Cy = AV Ly M Co = BV I, 若 存 在 合 一 化 子 0 使 L109 = 7L28, 
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xtC=AVB,A AKC 
5 3B (C = AV B) 等 价 . 
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“ 则 可 对 其 进行 归结 : 


了 (15.14) 


类 似 的 , 可 利用 合 一 化 子 对 式 (15.9) BEAT REIMER. 基 
于 式 (15.8), 定义 Ci = C/C2 Fl C2 = C/C, AY “VASE” (resolution quotient), 
于 是 , 道 归结 的 目标 就 是 在 已 知 C 和 C1 时 求 出 归结 商 C2. 对 某 个 Li e Ch, 假 
E p 是 一 个 置换 , 它 能 使 


人 (15.15) 


这 里 $1 的 作用 域 是 Ci 中 所 有 变量 , 记 为 vars(01), 其 作用 是 使 01 — {Li} 与 


C 中 的 对 应 文字 能 合 一 . > do 为 作用 域 是 vars(L1) 一 vars(C1 一 {L1} NB 
换 , Lo 为 归结 商 C2 中 将 被 消去 的 文字 , b 是 以 vars(Z2) 为 作用 域 的 置换 , 9 
与 oy 共同 作用 于 Li, 使 得 -Pigio 加 = L202, FÆ Q1 0 $2002 A AL, 5 Lo 


的 MGU. 将 前 两 步 的 复合 置换 $1 o Vo WH 1, 用 051 表示 Oo 的 逆 置 换 , 则 有 
(Tb1)0 = Lo. 于 是 , 类 似 于 式 (15.9), 一 阶 逆 归 结 是 


Cy = (C — (01— (11) V {L101)6 L (15.16) 


在 一 阶 情形 下 Ly. La. 81 #18. 的 选择 通常 都 不 唯一, 这 时 需 通过 一 些 其 他 的 
判断 标准 来 取 合 ， 例 如 覆盖 率 、 准 确 率 、 信 息 炳 等 


以 西瓜 数据 集 5.0 AB, 假定 我 们 通过 一 些 步骤 已 得 到 规则 


= 更 好 (L X) 人- RARER, X) A 纹理 更 清 (L X): 
一 更 好 (1,Y) 二 根 蒂 更 里 (1， Y)A mer 201, Y). 


容易 看 出 它们 是 “p - ANB” Al “pe ANC” HER, 于 是 可 使 用 内 构 操 作 
式 (15.12) 来 进行 逆 归 结 . 由 于 Ch, Co 中 的 谓词 都 是 二 元 的 , 为 保持 新 规则 描 


” 述 信息 的 完整 性 ， ee -元 谓词 a(M, N), 并 根据 式 (15.12) 得 到 


一 更 好 (1,2) 全 人 Z) ^q(M, N), 


式 (15.12) 中 横 线 下 方 的 另 两 项 分 别 是 C0 ‘ Ca/C' 的 归结 商 ， 对 C/C, 


容易 发 现 C' 中 通过 归结 消去 工 的 选择 可 以 有 “IEEE, Z)” A 
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“(M,N)” . 9 是 新 发 明 的 谓词 , 迟早 需 学 习 一 条 新 规则 “qd(M, N) A?” 


奥 卡 姆 钉 刀 原则 参见 来 定义 它 ; 根据 奥 卡 姆 剃刀 原则 ,同等 描述 能 力 下 学 得 的 规则 越 少 越 


1.4 节 . 


AQ 是 Algorithm Quasi- 


optimal 的 缩写 . 


决策 树 的 每 个 叶 结 点 对 
应 一 个 等 价 类 . 


WEKA 中 有 PRISM 的 
”实现 . 


RIPPER 达到 了 比 C4.5 
决策 树 既 快 又 好 的 效果 . 


好 , 因此 我 们 将 ~(M, N) 作为 Li， 由 式 (15.16), FE: Lo = gq(1,5)， 
dy = {X/Z}, $2 = {1/M,X/N}, 02 = {X/S}， 通 过 简单 的 演算 即 可 求 
出 归结 商 为 “gq(1, 8) +- 纹理 更 清 (1, 5)”， 类 似 地 可 求 出 Cz/C' 的 归结 商 
“q(1,T) + 痪 声 更 沉 (1,T)”. | 

逆 归 结 的 一 大 特点 是 能 自动 发 明 新 谓词 , 这 些 新 谓词 可 能 对 应 于 样 例 属性 


”和 背景 知识 中 不 存在 的 新 知识 , 对 知识 发 现 与 精 化 有 重要 意义 . 但 自动 发 明 的 


新 谓词 究竟 对 应 于 什么 语义 , 例如 “9g” 意 味 着 “更 新 鲜 ”? “RH? “更 多 
日 栖 ”? …… 这 只 能 通过 使 用 者 对 任务 领域 的 进一步 理解 才能 明确 . 

上 面 的 例子 中 我 们 只 介绍 了 如 何 基于 两 条 规则 进行 逆 归 结 . 在 现实 任务 
H, ILP 系统 通常 先 自 底 向 上 生成 一 组 规则 , 然后 再 结合 最 小 一 般 泛 化 与 逆 归 
结 做 进一步 学 习 . a 


15.6 阅读 材料 


规则 学 习 是 “符号 主义 学 习 ”(symbolism learning) 的 主要 代表 , 是 最 早 开 


台 研 究 的 机 器 学 习 技 术 之 一 [Michalski, 1983]. [Fiirnkranz et al., 2012] 对 规则 


学 习 做 了 比较 全 面 的 总 结 ， 

序 贯 覆盖 是 规则 学 习 的 基本 框架 , 最 早 在 [Michalski，1969] 的 AQ 中 被 
提出 , AQ 后 来 发 展 成 一 个 算法 族 , 其 中 比较 著名 的 有 AQ15 [Michalski et al., 
1986], AQ17-HCI [Wnek and Michalski, 1994] 等 . 受 计算 能 力 的 制约 , 早期 
AQ 在 学 习 时 只 能 随机 挑选 一 对 正 反 例 作 为 种 子 开始 训练 , 样 例 选择 的 随机 性 


| 导致 AQ 学 习 效 果 不 稳定 . PRISM [Cendrowska, 1987] 解决 了 这 个 问题 , 该 算 


法 最 早 采 用 自 顶 癌 下 搜索 , 并 显示 出 规则 学 习 与 决策 树 学 习 相 比 的 优点 : 决策 
树 试 图 将 样本 空间 划分 为 不 重合 的 等 价 类 , 而 规则 学 习 并 不 强求 这 一 点 , 因此 
后 者 学 得 的 模型 能 有 更 低 的 复杂 度 . 虽然 PRISM 的 性 能 不 如 AQ, 因此 在 当时 
反响 不 大 , 但 今天 来 看 , 它 是 规则 学 习 领 域 发 展 的 重要 一 步 . 

CN2 [Clark and Niblett, 1989] 采用 集束 搜索 , 是 最 早 考虑 过 拟 合 问题 的 规 
则 学 习 算 法 . [Fürnkranz, 1994] 显示 出 后 专 校 在 缓解 规则 学 习 过 拟 合 中 的 优势 . 


”RIPPER [Cohen, 1995] 是 命题 规则 学 习 技 术 的 高 峰 , 它 融 合 了 该 领域 的 许多 技 


巧 , 使 规则 学 习 在 与 决策 树 学 习 的 长 期 竞争 中 首次 占据 上 风 , 作者 主页 上 的 C 
语言 RIPPER 版 本 至 今 仍 代表 独 命题 规则 学 习 的 最 高 水 平 . 


关系 学 习 的 研究 一 般 认 为 始 于 [Winston, 1970]; 由 于 命题 规则 学 习 很 难 完 
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知识 工程 与 专家 系统 参 
见 1.5 节 . 
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成 此 类 任务 , 一 阶 规则 学 习 开 始 得 以 发 展 . FOIL 通过 变量 蔡 换 等 操作 把 命题 规 
则 学 习 转 化 为 一 阶 规则 学 习 , 该 技术 至 今 仍 有 使 用 , 例如 2010 年 卡耐基 梅 隆 大 
学 开展 的 “ 永 动 语言 学 习 ”(Never-Ending Language Learning, 简称 NELL) 计 
划 即 采用 FOIL 来 学 习 目 然 语 言 中 的 语义 关系 [Carlson et al., 2010]. 很 多 文献 


将 所 有 的 一 阶 规则 学 习 方 法 都 划 入 归纳 逻辑 程序 设计 的 范畴 , 本 书 则 是 作 了 更 


为 严格 的 限定 . 

[Muggleton, 1991] 提出 了 “归纳 逻辑 程序 设计 ”(ILP) 这 个 术语 , 在 
GOLEM [Muggleton and Feng, 1990] 中 克服 了 许多 从 命题 逻辑 过 渡 到 一 阶 
逻辑 学 习 的 困难 , 并 确立 了 自 底 向 上 归纳 的 ILP HEAR. 最 小 一 般 泛 化 (LGG) 
最 早 由 [Plotkin, 1970] 提出 , GOLEM 则 使 用 了 RLGG. PROGOL [Muggleton, 
1995] 将 逆 归 结 改进 为 逆 列 含 (inverse entailment) 并 取得 了 更 好 效果 . 新 谓词 
发 明 方 面 近年 有 一 些 新 进展 [Muggleton and Lin, 2013]. 由 于 ILP 学 得 的 规 
则 几乎 能 直接 被 PROLOG 等 逻辑 程序 解释 器 调用 , 而 PROLOG 在 专家 系统 
中 常 被 使 用 , 因此 ILP 成 为 连接 机 器 学 习 与 知识 工程 的 重要 桥梁 . PROGOL 
[Muggleton, 1995] 和 ALEPH [Srinivasan, 1999] 是 应 用 广泛 的 ILP 系统 , HÆ 
本 思想 已 在 本 章 关 于 ILP 的 部 分 有 所 体现 . Datalog [Ceri et al., 1989] 则 对 数 


据 库 领域 产生 了 很 大 影响 , 例如 甚至 影响 了 SQL 1999 标准 和 IBM DB2. ILP 


方面 的 重要 读物 有 (Muggleton, 1992; Lavraé and Dzeroski, 1993], 并 且 有 专门 
的 国际 归纳 逻辑 程序 设计 会 议 (ILP). 四 
ILP 复杂 上 度 很 高 ， 虽 在 生物 数据 挖掘 和 自 然 语言 处 理 等 任务 中 取得 一 些 


成 功 [Bratko and Muggleton, 1995], 但 问题 规模 稍 大 就 难以 处 理 ， 因此 ， 这 方 


面 的 研究 在 统计 学 习 兴 起 后 受到 一 定 抑制 . 近年 来 随 着 机 器 学 习 技 术 进 入 更 
多 应 用 领域 , 在 富 含 结构 信息 和 领域 知识 的 任务 中 , 逻辑 表达 的 重要 性 逐渐 凸 
显 出 来 ， 因此 出 现 了 一 些 将 规则 学 习 与 统计 学 习 相 结合 的 努力 ， 例如 试图 在 归 
纳 逻 辑 程序 设计 中 引入 概率 模型 的 “概率 归纳 逻辑 程序 设计 ”(probabilistic 
ILP) [De Raedt et al., 2008]、 给 贝 叶 斯 网 中 的 结 点 赋予 逻辑 意义 的 “关系 贝 
叶 斯 网 a (relational Bayesian network) [Jaeger, 2002] 等 . 事实 上 ， 将 关系 学 习 
与 统计 学 习 相 结合 是 机 器 学 习 发 展 的 一 大 趋势 , 而 概率 归纳 逻辑 程序 设计 是 
其 中 的 重要 代表 , 其 他 重要 代表 还 有 概率 关系 模型 [Friedman et al., 1999]. Jl 
叶 斯 逻辑 程序 (Bayesian Logic Program) [Kersting et al., 2000]. B/RW IES 
网 (Markov logic network) [Richardson and Domingos, 2006] 等 , 统称 为 “统计 
关系 学 习 ”(statistical relational learning) [Getoor and Taskar, 2007]. | 
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习题 


西瓜 数据 集 2.0 见 p.76 15.1 
RAL. 


15.2 


15.3 


15.4 
西瓜 数据 集 2.0a 见 p.86 
表 4.4. T 


15.9* 


在 3 无 法 合 一 时 输出 
“无 解 ” ; 


15.10* 
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对 西瓜 数据 集 2.0, 允许 使 用 否定 形式 的 文字 , HÆF HW FHIR 
学 出 命题 规则 集 . 


对 西瓜 数据 集 2.0, 在 学 习 过 程 中 可 通过 删 去 文字 、 将 常量 替换 为 变 
量 来 进行 规则 泛 化 , 试 基于 自 底 向 上 的 策略 学 出 命题 规则 集 . 


从 网 上 下 载 或 自己 编程 实现 RIPPER 算法 , 并 在 西瓜 数据 集 2.0 上 学 
出 规则 集 . 


规则 学 习 也 能 对 缺失 数据 进行 学 习 . 试 模仿 决策 树 的 缺失 值 处 理 方法 ， 
基于 序 贯 覆盖 在 西瓜 数据 集 2.00 上 学 出 命题 规则 集 . 


从 网 上 下 载 或 自己 编程 实现 RIPPER 算法 , 允许 使 用 否定 形式 的 文 
字 , 在 西瓜 数据 集 5.0 上 学 出 一 阶 规则 集 . 


对 西瓜 数据 集 5.0, 试 利用 归纳 逻辑 程序 学 习 概念 “更 坏 (X,Y)”. 


试 证 明 : 对 于 一 阶 公式 r 和 rp, 不 存在 既 能 特 化 为 r 和 re、 也 能 泛 


“化 为 它们 的 LGG 的 一 阶 公式 r. 


试 生成 一 个 西瓜 数据 集 5.0 的 LGG 集合 


一 阶 原 子 公式 是 一 种 递归 定义 的 公式 , 形 如 P(ti,to,...,tn), HAP 
是 谓词 或 函数 符号 , ti 称 为 “项 ”, 可 以 是 逻辑 常量 、 变 量 或 者 其 他 
原子 公式 . 对 一 阶 原子 公式 Ei 的 集合 5 = {5 Bo,..., En}, 试 设计 

一 个 算法 求解 其 MGU. | 


基于 序 贯 覆盖 的 规则 学 习 算法 在 学 习 下 一 条 规则 前 , 会 将 已 被 当前 规 
则 集 所 覆盖 的 样 例 从 训练 集中 删 去 . 这 种 贪心 策略 使 得 后 续 学 习 过 程 
仅 需 关心 以 往 未 覆盖 的 样 例 , 在 判定 规则 覆盖 率 时 不 需 考虑 前 后 规则 
间 的 相关 性 ; 但 该 策略 使 得 后 续 学 习 过 程 所 能 参考 的 样 例 越 来 越 少 . 
试 设计 一 种 不 删除 样 例 的 规则 学 习 算法 . 


ww ai bbt.com 站 0DDDDDD 





366: 


第 15 章 规则 学 习 


参考 文献 


Bratko, I. and S. Muggleton. (1995). “Applications of inductive logic program- 
ming.” Communicantions of the ACM, 38(11):65—70. 


_ Brunk, C. A. and. M. J. Pazzani. (1991). “An investigation of noise-tolerant re- 


lational concept learning algorithms.” In Proceedings of the 8th International 
Workshop on Machine Learning (IWML), 389-393, Evanston, IL. 

Carlson, A., J. Betteridge, B. Kisiel, B. Settles, E. R. Hruschka, and T. M. 
Mitchell. (2010). “Toward an architecture for never-ending language learn- 
ing.” In Proceedings of the 24th AAAI Conference on Artificial Intelligence 
(AAAI), 1306-1313, Atlanta, GA. | | 

Cendrowska, J. (1987). “PRISM: An algorithm for inducing modular rules.” 
International Journal of Man-Machine Studies, 27(4):349-370. 

Ceri, S., G. Gottlob, and L. Tanca. (1989). “What you always wanted to know 
about Datalog (and never dared to ask).” IEEE Transactions on Knowledge 
and Data Engineering, 1(1):146-166. a | 

Clark, P. and T. Niblett. (1989). “The CN2 induction algorithm.” Machine 
Learning, 3(4):261-283. Ea 

Cohen, W. W. (1995). “Fast effective rule induction.” In Proceedings of the 12th 

International Conference on Machine Learning (ICML), 115-123, Tahoe, 

CA. 后 本 ee 

De Raedt, L., P. Frasconi, K. Kersting, and S. Muggleton, eds. (2008). Prob- 
abilistic Inductive Logic Programming: Theory and Applications. Springer, 


Berlin. 


Friedman, N., L. Getoor, D. Koller, and A Pfeffer. (1999). ‘Teaming prob- 


abilistic relational models.” In Proceedings of the 16th International Joint 

Conference on Artificial Intelligence (IJCAI), 1300-1307, Stockholm, Swe- 

den. i 

Fürnkranz, J. (1994). “Top-down pruning in relational learning.” In Proceed- 
ings of the 11 th European Conference on Artificial ee (ECAT), 453- 
457, Amsterdam, The Netherlands. 

Fürnkranz, J., D. Gamberger, and N. Lavrač. (2012). Foundations of Rule 


Learning. Springer, Berlin. 
ww ai bbt. com O0 00000 





参考 文献 


367 


Fiirnkranz, J. and G. Widmer. (1994). “Incremental reduced error pruning.” 
In Proceedings of the 11th International Conference on Machine Learning 
(ICML), 70-77, New Brunswick, NJ. 

Getoor, L. and B. Taskar. (2007). Introduction to Statistical Relational Learn- 
ing. MIT Press, Cambridge, MA. 


Jaeger, M. (2002). “Relational Bayesian networks: A survey.” Electronic Trans- 


actions on Artificial Intelligence, 6:Article 15. 


Kersting, K., L. De Raedt, and S. Kramer. (2000). “Interpreting Bayesian logic 
programs.” In Proceedings of the AAAI’2000 Workshop on Learning Statis- 
tical Models from Relational Data, 29-35, Austin, TX. 


Lavrač, N. and S. Dzeroski. (1993). Inductive Logic Programming: Techniques 
and Applications. Ellis Horwood, New York, NY. 


Michalski, R. S. (1969). “On the quasi-minimal solution of the general covering 
problem.” In Proceedings of the 5th International Symposium on Information 
Processing (FCIP), volume A3, 125-128, Bled, Yugoslavia. 


Michalski, R. S. (1983). “A theory and methodology of inductive learning.” In 
Machine Learning: An Artificial Intelligence Approach (R. S. Michalski, J. 
Carbonell, and T. Mitchell, eds.), 111-161, Tioga, Palo Alto, CA. 

Michalski, R. S., I. Mozetic, J. Hong, and N. Lavrač. (1986). “The multi-purpose 
incremental learning system AQ15 and its testing application to three med- 
ical domains.” In Proceedings of the 5th National Conference on Artificial 
Intelligence (AAAI), 1041-1045, Philadelphia, PA. | 

Muggleton, S. (1991). “Inductive logic programming.” New Generation Com- 
puting, 8(4):295-318. | 


Muggleton, S., ed. (1992). Inductive Logic Programming. Academic Press, Lon- 


don, UK. 
Muggleton, S. (1995). “Inverse entailment and Progol.” New Generation Com- 
puting, 13(3-4):245-286. 
Muggleton, S. and W. Buntine. (1988). “Machine reata of first order predi- 


cates by inverting resolution.” In Proceedings of the 5th International Work- 
shop on Machine Learning (IWML), 339-352, Ann Arbor, MI. 


Muggleton, S. and C. Feng. (1990). “Efficient induction of logic programs.” 


ww ai bbt. com TAAOWOAgA 





368 


第 15 章 ”规则 学 习 


In Proceedings of the 1st International Workshop on Algorithmic Learning 
Theory (ALT), 368-381, Tokyo, Japan. | 

Muggleton, 9. and D. Lin. (2013). “Meta-interpretive learning of higher-order 
dyadic datalog: Predicate invention revisited.” In Proceedings of the 23rd In- 
ternational Joint Conference on Artificial Intelligence (IJCAI), 1551-1557, 
Beijing, China. | | | 

Plotkin, G. D. (1970). “A note on inductive generalization.” In Machine Intel- 
ligence 5 (B. Meltzer and D. Mitchie, eds.), 153-165, Edinburgh University 
Press, Edinburgh, Scotland. 


Plotkin, G. D. (1971). “A further note on inductive generalization.” In Ma- 
chine Intelligence 6 (B. Meltzer and D. Mitchie, eds.), 107-124, Edinburgh 
University Press, Edinburgh, Scotland. 

Quinlan, J. R. (1990). “Learning logical definitions from relations.” Machine 
Learning, 5(3):239-266. 

Richardson, M. and P. Domingos. (2006). “Markov logic networks.” Machine 
Learning, 62(1-2):107-136. | 

Robinson, J. A. (1965). “A machine-oriented logic based on the resolution prin- 
ciple.” Journal of the ACM, 12(1):23-41. | 

Srinivasan,A.(1999).“The Aleph manual.” http://www.cs.ox.ac.uk/ activities / 
machlearn/Aleph/aleph.html. 


~ Winston, P. H. (1970). Learning structural descriptions from examples. Ph.D. 


thesis, Department of Electrical Engineering, MIT, Cambridge, MA. 


Wnek, J. and R. S. Michalski. (1994). “Hypothesis-driven constructive induc- 
tion in AQ17-HCI: A method and experiments.” Machine Learning, 2(14): 
139-168. 7 | 


ww ai bbt. com FWOANOAA 





休息 一 会 儿 | | , 369 


小 故事 : HBS AAR “迈克 尔 斯 基 

AQ 系列 算法 是 规则 学 习 研 究 早 期 的 重要 成 果 , 主要 发 
明 人 是 机 器 学 习 先 驱 、 美 籍 波 兰 裔 科学 家 雷 萨 德 。 迈 克 尔 
斯 基 (Ryszard S. Michalski, 1937—2007). 


Re ES 。 迈克 尔 斯 基 出 生 在 波兰 卡 鲁 兹 , 1969 年 在 波兰 获得 计 

斯 、 德 国 、 乌 克 兰 等 国 。 ” 算 机 科学 博士 学 位 , 同年 在 南斯拉夫 布 莱 德 (Bled, MEM 

洛 文 尼 亚 ) 举行 的 FCIP 会 议 上 发 表 了 AQ. 1970 年 他 前 往 美国 UIUC 任教 , 此 

后 在 美国 进一步 发 展 了 AQ 系列 算法 . 迈克 尔 斯 基 是 机 器 学 习 领域 的 主要 黄 基 

人 之 一 . 1980 年 他 与 J. G. Carbonell. T. Mitchell 一 起 在 卡耐基 梅 隆 大 学 组 织 

了 第 一 次 机 器 学 习 研讨 会 , 1983、1985 年 又 组 织 了 第 二 、 三 次 , 这 个 系列 研讨 

会 后 来 发 展 成 国际 机 器 学 习 会 议 (ICML); 1983 年 , 迈克 尔 斯 基 作 为 第 一 主编 

出 版 了 《机 器 学 习 : 一 种 人 工 智 能 途径 》 这 本 机 器 学 习 史 上 里 程 碑 性 质 的 著作 ; 

参见 1.5 节 ， ”” 1986 年 Machine Learning 创刊 ,迈克 尔 斯 基 是 最 初 的 三 位 编辑 之 一 . 1988 年 
他 将 研究 组 迁 到 乔治 梅森 大 学 , 使 该 校 成 为 机 器 学 习 早 期 发 展 的 一 个 重镇 . 
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亦 称 “再 励 学 习 ” 


第 16 章 强化 学 习 


16.1 任务 与 奖赏 


我 们 考虑 一 下 如 何 种 西瓜 . 种 瓜 有 许多 步骤, 从 一 开始 的 选 种 , 到 定期 演 
K WIE RE, RE, 经 过 一 段 时 间 才 能 收获 西瓜 . 通常 要 等 到 收获 后 , 我 们 
才 知 道 种 出 的 瓜 好 不 好 . 吞 将 得 到 好 瓜 作为 辛勤 种 瓜 劳 动 的 奖赏 , 则 在 种 瓜 过 
程 中 当 我 们 执行 某 个 操作 (例如 , 施肥 ) 时 , 并 不 能 立即 获得 这 个 最 终 奖 赏 , 其 至 
难以 判断 当前 操作 对 最 终 奖 党 的 影响 , 仅 能 得 到 一 个 当前 反馈 (例如 , 瓜 昔 看 起 
来 更 健壮 了 ). 我 们 需 多 次 种 瓜 , 在 种 瓜 过 程 中 不 断 摸 索 , 然后 才能 总 结 出 较 好 
的 种 瓜 策 略 . 这 个 过 程 抽象 出 来 , 就 是 “强化 学 习 ”(reinforcement learning). 





奖赏 


16.1 强化 学 习 图 示 


图 16.1 给 出 了 强化 学 习 的 一 个 简单 图 示 . 强化 学 习 任务 通常 用 马尔 可 夫 决 
策 过 程 (Markov Decision Process, 简称 MDP) 来 描述 : 机 器 处 于 环境 互 中 , 状 
态 空间 为 X, 其 中 每 个 状态 x E X 是 机 器 感知 到 的 环境 的 描述 , 如 在 种 瓜 任 务 
上 这 就 是 当前 瓜 苗 长 势 的 描述 ; 机 器 能 采取 的 动作 构成 了 动作 空间 A, 如 种 瓜 
过 程 中 有 浇 水 、 施 不 同 的 肥 、 使 用 不 同 的 农药 等 多 种 可 供 选择 的 动作 ; 若 某 个 
动作 a € A 作用 在 当前 状态 zx 上 , 则 潜在 的 转移 沙 数 PP 将 使 得 环境 从 当前 状态 
按 某 种 概率 转移 到 另 一 个 状态 , 如 瓜 苗 状态 为 缺 水 , FEN PEEK, 则 瓜 再 长 
势 会 发 生变 化 , 瓜 苗 有 一 定 的 概率 恢复 健康 , 也 有 一 定 的 概率 无 法 恢复 ; 在 转移 
到 另 一 个 状态 的 同时 , 环境 会 根据 潜在 的 “奖赏 ”(reward) 函 数 尺 反 馈 给 机 器 
DKA, 如 保持 瓜 苗 健康 对 应 奖赏 十 1, 瓜 苗 凋零 对 应 奖 营 一 10， 最 终 种 出 了 
好 瓜 对 应 奖赏 十 100. 综合 起 来 , 强化 学 习 任 务 对 应 了 四 元 组 = (X, A, P, R), 
HHP: :XxAxXH Rife [RARER R: XxAxX =e REETZ 
党; 在 有 的 应 用 中 , 奖赏 函数 可 能 仅 与 状态 转移 有 关 , BR: Xx XOR. 


图 16.2 给 出 了 一 个 简单 例子 : 给 西瓜 浇 水 的 马尔 可 夫 决 策 过 程 . 该 任务 中 
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a= 不 浇 水 ”a= 浇 水 


p=0.4 =0.6 
a r=] oral a= 不 洲 水 
i a= 不 浇 水 a= 不 浇 水 | 24 
= p= 
_r=-l r=1 
Catt) s- 健 康 s= 洪 水 
0= 浇 水 4= 浇 水 
a= 不 浇 水 p=0.5 p=0.4 a=% K 
p=0.4 a= 不 浇 水 N=! rl sağ% p=06 
r=-1 p= p=0 /一 一 | 
r=—100 r=—100 
? RT 
4= 浇 水 /不 浇 水 
p=! 
r=—100 


16.2 给 西瓜 浇 水 问题 的 马尔 可 夫 决 策 过 程 


只 有 四 个 状态 (健康 、 缺 水 、 滋 水 、 调 亡 ) 和 两 个 动作 ( 浇 水 、 不 次 水 ), 在 每 一 
步 转移 后 , 若 状 态 是 保持 瓜 苗 健康 则 获得 奖赏 1, IR ZK Ba KR GK A -1, 这 
时 通过 浇 水 或 不 浇 水 可 以 恢复 健康 状态 , 当 瓜 苦 凋 亡 时 交 黄 是 最 小 值 -100 H 


无 法 恢复 . 图 中 箭头 表示 状态 转移 , 第 头 旁 的 a,p,7 分 别 表示 导致 状态 转移 的 


动作 、 转 移 概 率 以 及 返回 的 奖赏 . 容易 看 出 , 最 优 策略 在 “健康 ”状态 选择 动 


作 “ 浇 水 ”、 在 “ 溢 水 ”状态 选择 动作 “不 浇 水 ”、 在 “ 缺 水 ”状态 选择 动 


作 “ 浇 水 ”、 在 “ 调 亡 ”状态 可 选择 任意 动作 ， 


需 注意 “机 器 ”与 “环境 ”的 界限 , 例如 在 种 西瓜 任务 中 , 环境 是 西瓜 生 
长 的 自然 世界 ; 在 下 棋 对 弈 中 , 环境 是 棋盘 与 对 手 ; 在 机 器 人 控制 中 , 环境 是 机 
器 人 的 躯体 与 物理 世界 . 总 之 , 在 环境 中 状态 的 转移 、 奖 赏 的 返回 是 不 受 机 器 
控制 的 , 机 器 只 能 通过 选择 要 执行 的 动作 来 影响 环境 , 也 只 能 通过 观察 转移 后 
的 状态 和 返回 的 奖赏 来 感知 环境 | E 

机 器 要 做 的 是 通过 在 环境 中 不 断 地 尝试 而 学 得 一 个 “策略 ”(policy) r, 根 
据 这 个 策略 , 在 状态 zx 下 就 能 得 知 要 执行 的 动作 a = n(x), 例如 看 到 瓜 苗 状态 
是 缺 水 时 , 能 返回 动作 “小 水 ”. 策略 有 两 种 表示 方法 : 一 种 是 将 策略 表示 为 
函数 : X o A, 确定 性 策略 常用 这 种 表示 ; 另 一 种 是 概率 表示 7 : Xx AOR, 
随机 性 策略 常用 这 种 表示 , r(z,a) 为 状态 x 下 选择 动作 a 的 概率 , 这 里 必须 有 
Some) = 1. 3 | | 7 

策略 的 优 劣 取 决 于 长 期 执行 这 一 策略 后 得 到 的 累积 奖赏 , 例如 某 个 策略 使 


得 瓜 苗 枯 死 , 它 的 累积 奖赏 会 很 小 , 另 一 个 策略 种 出 了 好 瓜 , 它 的 累积 奖赏 会 很 
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大 . 在 强化 学 习 任务 中 , 学 习 的 目的 就 是 要 找到 能 使 长 期 累积 奖赏 最 大 化 的 策 
略 . 长 期 累积 奖赏 有 多 种 计算 方式 , RAW NTE RRRR” EYE 
和 “了 折扣 累积 奖赏 ”下 [tse yr], 其 中 xi 表示 第 t 步 获得 的 奖赏 值 ， EX 
示 对 所 有 随机 变量 求 期 望 . | 
”读者 也 许 已 经 感觉 到 强化 学 习 与 监督 学 习 的 差别 . 若 将 这 里 的 “状态 ”对 
应 为 监督 学 习 中 的 “示例 ”、“ 动 作 ” 对 应 为 “标记 ”, 则 可 看 出 , 强化 学 习 
中 的 “策略 ”实际 上 就 相当 于 监督 学 习 中 的 “分 类 器 ”( 当 动作 是 离散 的 ) 或 
“回归 器 ”( 当 动作 是 连续 的 ), 模型 的 形式 并 无 差别 . 但 不 同 的 是 , 在 强化 学 
习 中 并 没有 监督 学 习 中 的 有 标记 样本 ( 即 “ 示 例 -标记 ”对 ), 换言之 ， 
接 告诉 机 器 在 什么 状态 下 应 该 做 什么 动作 , 只 有 等 到 最 终结 果 揭 晓 , 才能 
“反思 ”之 前 的 动作 是 否 正确 来 进行 学 习 . 因此 ， 
作 具 有 “延迟 标记 信息 ”的 监督 学 习 问题 . 


16.2 天 - 摇 臂 赌博 机 


16.2.1 探索 与 利用 
与 一 般 监督 学 习 不 同 , 强化 学 习 任务 的 最 终 奖 赏 是 在 多 步 动作 之 后 才能 观 
察 到 , 这 里 我 们 不 妨 先 考虑 比较 简单 的 情形 : 最 大 化 单 步 奖赏 , 即 仅 考虑 一 步 
操作 . 需 注意 的 是 , 即便 在 这 样 的 简化 情形 下 , 强化 学 习 仍 与 监督 学 习 有 显著 不 
同 , 因为 机 器 需 通 过 尝试 来 发 现 各 个 动作 产生 的 结果 , 而 没有 训练 数据 告诉 机 
器 应 当做 哪个 动作 | 
欲 最 大 化 单 步 奖赏 需 考虑 两 个 方面 : 一 是 需 知道 每 个 动作 带 来 的 奖赏 , 二 
是 要 执行 奖赏 最 大 的 动作 . 若 每 个 动作 对 应 的 奖赏 是 一 个 确定 值 , 那么 尝试 一 


EA KSEE RER HKS peel 般 的 情形 是 , 一 个 动作 的 奖 


赏 值 是 来 自 于 一 个 概率 分 布 , 仅 通过 一 次 尝试 并 不 能 确切 地 获得 平均 奖赏 
实际 上 ， RES 即 “天 - 摇 璧 赌博 机 ”( 开 - 
go BKM AR armed bandit). 如 图 16.3 所 示 , 天 - 摇 辟 赌博 机 有 KARR, 赌 徒 在 投入 一 个 
硬币 后 可 选择 按 下 其 中 一 个 摇 臂 , 每 个 摇 臂 以 一 定 的 概率 吐出 硬币 , 但 这 个 概 
率 赌 徒 并 不 知道 . 赌 徒 的 目标 是 通过 一 定 的 策略 最 大 化 自己 的 奖赏 , 即 获得 最 
多 的 硬币 . | : 

车 仪 为 获知 每 个 摇 辟 的 期 望 奖 赏 , 则 可 采用 “ 仪 探索 ”(exploration- 
only) 法 : 将 所 有 的 尝试 机 会 平均 分 配给 每 个 摇 臂 ( 即 轮流 按 下 每 个 摇 臂 ), 最 后 

以 每 个 摇 臂 各 自 的 平均 吐 币 概率 作为 其 奖赏 期 望 的 近似 估计 . 若 仅 为 执行 奖赏 


最 大 的 动作 , 则 可 采用 “ 仅 利 用 ”(exploitation-only) 法 : 按 下 目前 最 优 的 ( 即 到 
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16.3 K-A MPA 


i oo o BAS MER AAR, 则 从 中 随机 选取 一 个 . 
然 , “ 仅 探 索 ” 法 能 很 好 地 估计 每 个 摇 臂 的 奖赏， ee 
“ 仅 利 用 ”法 则 相反 , 它 没有 很 好 地 估计 摇 辟 期 望 奖赏 能 经 向 
选 不 到 最 优 摇 臂 . 因此 ， ss 
事实 上 , “探索 ”( 即 估计 摇 辟 的 优 和 劣 ) 和 “利用 ”( 即 选择 当前 最 优 摇 
辟 ) 这 两 者 是 矛盾 的 , 因为 尝试 次 数 ( 即 总 投 币 数 ) 有 限 , 加 强 了 一 方 则 会 自 
然 前 弱 另 一 方 , 这 就 是 强化 学 习 所 面临 的 “探索 -利用 窘境 ”(Exploration- 
Exploitation dilemma). 显然 , 欲 累积 奖赏 最 大 , 则 必须 在 探索 与 利用 之 间 达 成 
较 好 的 折 中 . 


16.2.2 ec 贪心 


c- 贪 心 法 基于 一 个 概率 来 对 探索 和 利用 进行 折 中 : 每 次 尝试 时 , 以 e 的 概率 
进行 探索 , 即 以 均匀 概率 随机 选取 一 个 摇 辟 ; 以 1 e 的 概率 进行 利用 , 即 选择 
当前 平均 奖 介 最 高 的 播 臂 ( 若 有 多 个 , 则 随机 选取 一 个 ). | 

Q(k) 记录 播 臂 大 的 平均 奖赏 . FB kR T nik, EIN RR 


Ut, V2, e.e Uns 则 平均 奖赏 为 


1 n 
=-S i | (16.1) 
2 二 ] 


若 直 接 根据 式 (16.1) 计 算 平均 奖 党 , 则 需 记录 n 个 奖 党 信 . 显然 , 更 高 效 的 
做 法 是 对 均值 进行 增 量 式 计算 , 即 每 尝试 一 次 就 立即 更 新 Qk). 不 妨 用 下 标 来 
表示 尝试 的 次 数 , 初始 时 Qo(k) = 0. 对 于 任意 的 n > 1, 车 第 n 一 1 次 尝试 后 的 
平均 奖赏 为 Qa_1(k), 则 在 经 过 第 n 次 尝试 获得 奖赏 w 后 , 平均 奖赏 应 更 新 为 


Qn(k) = =((n — 1) x Qn-i(k) + tn) (16.2) 
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16.2 友 - 摇 辟 赌 博 机 


式 (16.3) 会 在 16.4.2 节 
中 用 到 ， 


Q(i) # count(i) 分 别 记 
录 摇 导 i 的 平均 奖赏 和 选 
中 次 数 . 


Æ [0,1] 中 生成 随机 数 . 


本 次 尝试 的 奖赏 值 . 


式 (16.2) 更 新 平均 奖赏 . 
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M = (on = = ° (163) 


这 样 , 无 论 播 臂 被 答 试 多 少 次 都 仅 需 记 录 两 个 值 : 已 尝试 次 数 n 一 1 和 最 近 平均 
奖赏 On i(k). e- 贪 心算 法 描述 如 图 16.4 所 示 . 


mA: HBA K; 
奖 沉 函数 R; 
ZAAT 
探索 概率 e 
过 程 : 
TSO. 
2: i= 1,2,- K © Q(i) =0, count(i) = 0; 
3: for t = 1,2,...,T do 
4: if rand()<e then 
5: k= M 1,2,..., K PUR BENLE 
6: else 
7T:  k=argmax; Q(t) 
8: end if 
9: v= R(k); 
10: r 二 7 十 Vv; 
n: O(N) = Ss 
12: count(k) = count(k) + 1; 
13: end for 


输出 : 累积 奖赏 了 


16.4 ce- 贪 心算 法 


若 摇 臂 奖赏 的 不 确定 性 较 大 , 例如 概率 分 布 较 宽 时 , 则 需 更 多 的 探索 , 此 时 
需要 较 大 的 e 值 ; 若 播 臂 的 不 确定 性 较 小 , 例如 概率 分 布 较 集中 时 , 则 少量 的 学 
试 就 能 很 好 地 近似 真实 奖赏 , 此 时 需要 的 。 较 小 . 通常 令 e 取 一 个 较 小 的 常数 ， 
如 0.1 或 0.01. 然而 , 车 尝试 次 数 非常 大 , 那么 在 一 段 时 间 后 , PROSE MAE 
很 好 地 近似 出 来 , 不 再 需要 探索 , 这 种 情形 下 可 让 e 随 着 尝试 次 数 的 增加 而 逐 
浙 减 小 , 例如 令 二 1/Vt. 


16.2.3 Softmax 


Softmax 算法 基于 当前 已 知 的 摇 辟 平均 奖赏 来 对 探索 和 利用 进行 折 中 . 车 
各 摇 辟 的 平均 奖赏 相当 , 则 选取 各 摇 辟 的 概率 也 相当 ; 若 某 些 摇 臂 的 平均 奖赏 


明显 高 于 其 他 摇 臂 , 则 它们 被 选取 的 概率 也 明显 更 高 . 
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Softmax 算法 中 摇 辟 概率 的 分 配 是 基于 Boltzmann 分 布 








P(k) = ar (16.4) 


其 中 , Q(i) 记录 当 前 所 入 的 平均 奖赏 7 > 0 称 为 “温度 ”, 7 越 小 则 平均 奖赏 
高 的 摇 辟 被 选取 的 概率 越 高 , 7 趋 于 0 时 Softmax 将 趋 于 “ 仅 利用 ”, 7 AFE 
穷 大 时 Softmax 则 将 趋 于 “ 仅 探 索 ”. Softmax 算法 描述 如 图 16.5 R. 


输入 : 摇 臂 数 K; 


奖赏 函数 R; 
| 尝试 次 数 工 ; 
第 4 行 中 式 (16.4) 的 参 温度 参数 T. 
数 . WH: 
1: r=0; i 
Q(i) 和 count(i) 分 别 记 2: Vi=1,2,...K: Q(i 二 = 0, count(i) = 0; 
eee 3: fort =1,2,...,T'd 
4: k= 人 1,2,...,K K 中 根据 式 (16， 4) 随 机 选取 
本 次 尝试 的 奖赏 5 -wRK ; l 
6: r=r+v 
式 (16.2) 更 新 平均 奖赏 7: Q(k) = Qdots 
8: count(k) = count(k) + 1; 


' 9: end for 
输出 : 累积 奖赏 7 


16.5 Softmax 算 法 


ec- 贪心 算法 与 Softmax 算法 熟 优 熟 劣 , 主要 取决 于 具体 应 用 . 为 了 更 直观 
地 观察 它们 的 差别 , 考虑 一 个 简单 的 例子 : 假定 2- 摇 辟 赌 博 机 的 摇 辟 1 以 0.4 
的 概率 返回 奖赏 1, 以 0.6 的 概率 返回 奖赏 0; 摇 臂 2 以 0.2 的 概率 返回 奖赏 1， 
以 0.8 的 概率 返回 奖赏 0. 图 16.6 显示 了 不 同 算法 在 不 同 参 数 下 的 平均 累积 
奖赏 , 其 中 每 条 曲线 对 应 于 重复 1000 次 实验 的 平均 结果 . 可 以 看 出 , Softmax 
(r = 0.01) 的 曲线 与 “BAA” 的 曲线 几乎 重合 . 


对 于 离散 状态 空间 、 离散 动作 空间 上 的 多 步 强化 学 习 任务 一 种 直接 的 办 
法 是 将 每 个 状态 上 动作 的 选择 看 作 一 个 天 - 摇 臂 赌博 机 问题 , 用 强化 学 习 任务 
的 累积 奖赏 来 代替 环 - 摇 臂 赌博 机 算法 中 的 奖赏 函数 , 即 可 将 赌博 机 算法 用 于 
每 个 状态 : 对 每 个 状态 分 别 记录 各 动作 的 尝试 次 数 、 当 前 平均 累积 奖赏 等 信 


息 , 基于 赌博 机 算法 选择 要 尝试 的 动作 . 然而 这 样 的 做 法 有 很 多 局 限 , 因为 它 没 
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16.3 ”有 模型 学 习 


16.4 节 将 讨论 模型 未 知 
情形 . 
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0.40 ; 
| E-FS (€=0.1) | 
| ee ee 


平均 累积 奖赏 





0.25 是 -一 
0 500 1000 1500 2000 2500 3000 
党 试 次 数 


图 16.6 ”不同 算 法 在 2- 摇 臂 赌博 机 上 的 性 能 比较 


有 考虑 强化 学 习 任 务 马 尔 可 夫 决 策 过 程 的 结构 . 在 16.3 节 将 会 看 到 , 若 能 有 效 
FEARI RRR LIERE E, 则 可 有 更 聪明 的 办 法 . 





16.3 有 模型 学 习 


考虑 多 步 强 化 学 习 任 务 , 暂且 先 假定 住 务 对 应 的 与 尔 可 夫 决 策 过 程 由 元 组 
E=(X,A,P,R) BAGH, 这 样 的 情形 称 为 “模型 已 知 ”, 即 机 器 已 对 环境 进 
行 了 建 模 , 能 在 机 器 内 部 模拟 出 与 环境 相同 或 近似 的 状况 . 在 已 知 模型 的 环境 
中 学 习 称 为 “有 模型 学 习 ”(model-based learning). 此 时 , 对 于 任意 状态 z,z 
和 动作 a, 在 zx 状态 下 执行 动作 a 转移 到 a! 状态 的 概率 Po， 是 已 知 的 , 该 转 
移 所 带 来 的 奖赏 Re WEER. 为 便于 讨论 , 不 妨 假设 状态 空间 X 和 动作 
空间 A 均 为 有 限 . 


16.3.1 策略 评估 


在 模型 已 知 时 , 对 任意 策略 m 能 估计 出 该 策略 帝 来 的 期 组 累积 奖赏 . 令 
函数 V(x) 表示 从 状态 r 出发, 使 用 策略 r PRA AAR ER, 函数 Q (x,a) 
表示 从 状态 x 出 发 , 执行 动作 a 后 再 使 用 策略 r HOR ARR. 这 里 的 
V(O 称 为 “状态 值 图 数 ”(state value function), Q(-) 称 为 “状态 -动作 值 函 
数 ”(state-action value function), 分 别 表示 指定 “状态 ”上 以 及 指定 “ 状 


S-E” ERRIRE. 
ww ai bbt. com PO00O0D0DOO 
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由 累积 奖赏 的 定义 , 有 状态 值 函数 


Tap \ T = 党 
H (0) = Er | Ekar | zo = a], 代步 累积 奖赏 


Vr(z) = Er [TES fre lzo = zl] ，7 折 扣 累 积 奖 赏 . 


为 叙述 简洁 , 后 面 在 涉及 上 述 两 种 累积 奖赏 时 , 就 不 再 说 明 奖赏 类 别 , 读者 
从 上 下 文 应 能 容易 地 判 知 . 令 ro 表示 起 始 状态 , ao 表示 起 始 状 态 上 采取 的 第 一 
个 动作 ; 对 于 工 步 累积 奖赏 , 用 下 标 上 表示 后 续 执行 的 步 数 . 我 们 有 状态 -动作 
值 函数 | 
Q(x, a) = Erl Xi rt | £o = z, ao = al; 


(16.6) 
Q7 (z, a) = Er[> 0 Yretl | Lo = 7, a = al. 


= 由 于 MDP 具有 马尔 可 夫 性 质 , 即 系统 下 一 时 刻 的 状态 仅 由 当前 时 刻 的 状 
”这 样 的 递归 等 式 称 为 














ei 态 决定 , 不 依赖 于 以 往 任何 状态 , 于 是 值 函数 有 很 简单 的 递归 形式 . 对 于 工 步 
| 累积 奖 党 有 
ig | 
Vile) = Er |E Sore | a0 = | 
t=1 
T 
pi 1 = 1 
= Be |p + op a 
sh Mee KA a on Tel =: p= / 
动作 -状态 全 概率 展开 . = > T(zya) >D Poan PPa + En Foi Sor Erisa: 
acA Xz'EX t= 
a 1 a Fal T - 
E >》_T(z,a) ` Poa! (FR T VE) j (16.7) 
acA Zz'EX 
类 似 的 , 对 于 了 折扣 昧 积 奖赏 有 
Vy (a) =D 700) > Pe sa (Rese + V7 (2)). (16.8) 


acA rT'EX 
需 注 意 的 是 , 正 是 由 于 已 和 REA, 才 可 以 进行 全 概率 展开 . 


读者 可 能 已 发 现 , 用 上 面 的 递归 等 式 来 计算 值 函 数 , 实际 上 就 是 一 种 动态 
规划 算法 . 对 于 全 ,可 设想 递归 一 直 进行 下 去 , 直到 最 初 的 起 点 ; 换言之 , ME 
因数 的 初始 值 好 出 发 , 通过 一 次 碗 代 能 计算 出 每 个 状态 的 单 步 奖 党 V7', 进而 
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输入 : MDP 四 元 组 = (X, A, P, Ry; 


被 评估 的 策略 x; 
累积 奖 芝 参数 了. 
过 程 : 
V(z) 为 zx 的 累积 奖赏 . 1: Ve Ee X: V(x) =0; 


2: for t =1,2,... do 


A(16.7) ZHE BRK. 3: Wee X: V' (2) = Duca T(2,8) rex Pha (FR, + HEV (2); 
4: if t=7'+1 then 
5: break 
这 个 写法 是 为 了 便于 在 6: else 
同样 的 算法 框架 下 考虑 人 7: V=V' 
 PRRRKA y Ht KAR g end te 
RT. 9: end for 


输出 : 状态 值 函数 V 


图 16.7 基于 下 步 累 积 奖 赏 的 策略 评估 算法 


从 单 步 奖 党 出 发 , 通过 一 次 迭代 计算 出 两 步 累 积 奖 党 VT, …… 图 16.7 中 算法 遵 
循 了 上 述 流 程 , WF T RRR, 只 需 迭 代 工 轮 就 能 精确 地 求 出 值 函数 . 


对 于 V7, 由 于 在 t 很 大 时 趋 于 0, 因此 也 能 使 用 类 似 的 算法 , 只 需 将 图 
参见 习题 16.2. 16.7 算法 的 第 3 行 根 据 式 (16.8) 进 行 蔡 换 . 此 外 , 由 于 算法 可 能 会 迭代 很 多 次 ， 
因此 需 设置 一 个 停止 准则 . 常见 的 是 设置 一 个 阔 值 9, 若 在 执行 一 次 迭代 后 值 函 
数 的 改变 小 于 9 则 算法 停止 ; 相应 的 , 图 16.7 算法 第 4 行 中 的 七 = 人 十 1 BS 

换 为 
max V(x) —V"(x)| <6. (16.9) 


有 了 状态 值 函数 V, 就 能 直接 计算 出 状态 -动作 值 函 数 


QT(Z, a) = 2 Pee T LVA (7)); 
化 


Gya= D PE (RE ss + WF (2")) 
ZL/ EAX 


(16.10) 


16.3.2 策略 改进 . 


对 茶 个 集 略 的 累积 奖赏 进行 评估 后 , 大 发 现 它 并 非 最 优 集 略 , 则 当然 希望 
对 其 进行 改进 . 理想 的 策略 应 能 最 大 化 累积 奖赏 


T = arg max ` 人 (16.11) 
a rEX 
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一 个 强化 学 习 任 务 可 能 有 多 个 最 优 策略 , 最 优 策略 所 对 应 的 值 函数 V* 称 


”为 最 优 值 函数 , 即 


vz € X : V* (x)= V (æ) (16.12) 


注意 , 当 策 略 空间 无 约束 时 式 (16.12) 的 V* 才 是 最 优 策略 对 应 的 值 函数 , 例如 对 
离散 状态 空间 和 离散 动作 空间 , 策略 空间 是 所 有 状态 上 所 有 动作 的 组 合 , 共有 
AK 种 不 同 的 策略 . 若 策略 空间 有 约束 , 则 违背 约束 的 策略 是 “不 合法 ”的 ， 

即便 其 值 函 数 所 取得 的 累积 奖赏 值 最 大 , 也 不 能 作为 最 优 值 函数 . 


由 于 最 优 值 函 数 的 累积 奖赏 值 已 达 最 大 , 因此 可 对 前 面 的 Bellman S l 


式 (16.7) 和 (16.8) 做 一 个 改动 , 即将 对 动作 的 求 和 改 为 取 最 优 : 


Vip (x) = max Da Pe sw (TR yy + VE (2’)); 


a (16.13) 
| Vy (x) = aA SE pen (Re ca! T Vy (z’)) i | 
REZ, 
V*(r) = - max Q" "(a, a). | (16.14) 
代入 式 (16.10) 可 得 最 优 状 态 -动作 值 函 数 
Op (ea) = D Peay (RRS + Tet max Qila, a’); 
+ ee (16.15) 


Q(T, 9) = 2 Pama Re at + ymax Q(x", a’). 
ale 


上 述 关 于 最 优 值 函数 的 等 式 , 称 为 最 优 Bellman 等 式 , 其 唯一 解 是 最 优 值 函数 ， 

最 优 Bellman 等 式 揭示 了 非 最 优 策略 的 改进 方式 : 将 策略 选择 的 动作 改变 
为 当前 最 优 的 动作 . 显然, 这 样 的 改变 能 使 策略 更 好 . 不 妨 令 动作 改变 后 对 应 的 = 
策略 为 ,改变 动作 的 条 件 为 Q7(z, zi(z)) > V"(z), 以 折扣 累积 奖赏 为 例 ， 
由 式 (16.10) 可 计算 出 递 推 不 等 式 


v"(0) < Q" (a, (2)) 
= X PORC + wv" (a N) 


L'EX 
TR n’ (x) wet I 

< ` PR +Q" @ an @)) 
0/EX | 
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16.3 有 模型 学 习 


14(z)| 是 z 状态 下 所 有 
动作 数 . 


可 选 动 


X(16.7) 2A BHR. 


式 (16.10) 计 算 Q 值 . 
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= V” (x). (16.16) 


(om ont FS Ma — PEE AE FP 3 FE 的 , 因此 对 于 当前 策略 T, 
放心 地 将 其 改进 为 


n(x) = arg max Q" (x,a), (16.17) 
aCA 


直到 与 一致、 不 再 发 生变 化 , 此 时 就 满足 了 最 优 Bellman 等 式 , 即 找到 了 
最 优 策略 . 
16.3.3 REAR SEAR 


由 前 两 小 节 我 们 知道 直 了 如 何 评估 一 个 策略 的 值 函数 , 以 及 在 策略 评估 后 如 
何 改进 至 获得 最 优 策略 . 显然 , 将 这 两 者 结合 起 来 即 可 得 到 求解 最 优 解 的 方法 : 
从 一 个 初始 策略 (通常 是 随机 策略 ) 出 发 , 先进 行 策略 评估 , 然后 改进 策略 , 评估 
改进 的 策略 , 再 进一步 改进 策略 ，…… 不 断 迭 代 进 行 策 略 评估 和 改进 , 直到 策略 
收敛 、 不 再 改变 为 止 . 这 样 的 做 法 称 为 “策略 和 迭代”(policy iteration). 

图 16.8 给 出 的 算法 描述 , 就 是 在 基于 工 步 累积 奖赏 策略 评估 的 基础 上 ， 加 


输入 : MDP 四 元 组 = (X, A, P, R); 
累积 奖赏 参数 工 . 
过 程 : 
1: Ve EX: V(x) =0, t(z,a) = 
2: loop. 
3: fort=1,2,...do 





Lei 
|A(a)|? 


4 Va €X:V"(2) = Poca T.20) Ð pex Pe ys (FR ,y+ HEV (e')); 
5 if t=T +1 then 
6: ` break 
7 else 
8: vay 
9: — endif 
10: end for 


11: Vee X:n'(x) = argmaXx,ca Q(z,a); 
12: if Vx: n' (x)= r(x) then 


13: break 
14: else 

15: mEn 
16: end if 

17: end loop 
输出 : 最 优 策略 m 


16.8 基于 人 步 累 积 奖赏 的 策略 迭代 算法 
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Per ere os nite omen 
KERIA. 策略 迁 代 算法 在 每 次 改进 策略 后 都 需 重新 进行 策略 评估 , 这 通 
比较 耗 时 . 


由 式 (16.16) 可 知 , 策略 改进 与 值 函数 的 改进 是 一 致 的 , 因此 可 将 策略 改进 
视 为 值 函数 的 改善 , 即 由 式 (16.13) 可 得 
ia, Darex Pioa (pose + Veale’); (16.18) 
Vy (x) = maxaeA >_vzveX ae (Rs sy + Vy (z’)) ' 


于 是 可 得 到 值 迭 代 (value iteration) 算 法 , 如 图 16.9 所 示 . 


输入 : MDP 四 元 组 = (X,A,P, R); 
累积 奖赏 参数 T: , 
SBI 0 . 


1: vn EX: V(r) =0; 
2: for t =1,2,... do 
式 (16.18) 更 新 值 函数 ， 3: Vz eX i Vi'(z) RE 
4: if maxzex |V(x) — V'(x)| < 6 then 
5 break 
6: else. 
7: VW 
8: end if 
' 9: end for 7 
式 (16.10) 计 算 Q 值 . 和 输出: 策略 r(z) = argmax,., Q(z, a) 


16.9 基于 人 步 累 积 奖赏 的 值 迭 代 算 法 
AOR y 折扣 累积 : K, 只 只 需 将 图 16.9 Gi 34T HRA 


Va Ee X :V'(x) = max age? a a (Roya $V (2')). (16.19) 
. vex l 


从 上 面 的 算法 可 看 出 , 在 模型 已 知 时 强化 学 习 任 务 能 归结 为 基于 动态 规划 
的 寻 优 问 题 . 与 监督 学 习 不 同 , 这 里 并 未 涉及 到 泛 化 能 力 , 而 是 为 每 一 个 状态 找 
到 最 好 的 动作 . | 


(164 免 模 型 学 习 


在 现实 的 强化 学 习 任务 中 ， 环 境 的 转移 概率 、 奖 赏 函数 往往 很 难得 知 , 甚 
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16.4 ”人 免 模 型 学 习 


亦 称 “ 无 模型 学 习 ”. 


蒙特 卡 罗 方 法 参见 14.7 
节 ; 14.5.1 节 中 使 用 过 马尔 
可 夫 链 蒙特 卡 罗 方 法 . 
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至 很 难 知道 环境 中 一 共有 多 少 状态 . 若 学 习 算 法 不 依赖 于 环境 建 模 , 则 称 为 
“ 免 模 型 学 习 ”(model-free learning), 这 比 有 模型 学 习 要 困难 得 多 


16.4.1 蒙特 卡 罗 强 化 学 习 

在 免 模型 情形 下 , 策略 迭代 算法 首先 遇 到 的 问题 是 策略 无 法 评估 , 这 是 由 
于 模型 未 知 而 导致 无 法 做 全 概率 展开 . 此 时 , 只 能 通过 在 环境 中 执行 选择 的 动 
作 , 来 观察 转移 的 状态 和 得 到 的 奖赏 . 受 K 摇 辟 赌博 机 的 启发 , 一 种 直接 的 策 
略 评估 替代 方法 是 多 次 “采样 ”, 然后 求 取 平均 累积 奖赏 来 作为 期 望 累积 奖赏 
的 近似 , 这 称 为 蒙特 卡 罗 强 化 学 习 . 由 于 采样 必须 为 有 限 次 数 , 因此 该 方法 更 适 
合 于 使 用 工 步 累积 奖赏 的 强化 学 习 任务 . | 

另 一 方面 , 策略 迭代 算法 估计 的 是 状态 值 函数 了 , 而 最 终 的 策略 是 通过 状 
态 -动作 值 函 数 Q 来 获得 . 当 模 型 已 知 时 , 从 V 到 Q 有 很 简单 的 转换 方法 , 而 
当 模型 未 知 时 , 这 也 会 出 现 困难 . 于 是 , 我 们 将 估计 对 象 从 V 转变 为 Q, 即 估计 
每 一 对 “状态 -动作 ”的 值 函数 . 

此 外 , 在 模型 未 知 的 情形 下 , 机 器 只 能 是 从 一 个 起 始 状态 (或 起 始 状态 集 
合 ) 开 始 探索 环境 , 而 策略 迭代 算法 由 于 需 对 每 个 状态 分 别 进行 估计 , 因此 在 这 
种 情形 下 无 法 实现 . 例如 探索 种 瓜 的 过 程 只 能 从 播 下 种 子 开始 , 而 不 能 任意 选 
择 种 植 过 程 中 的 一 个 状态 开始 . 因此 , 我 们 只 能 在 探索 的 过 程 中 逐渐 发 现 各 个 
状态 并 估计 各 状态 -动作 对 的 值 函 数 . | 

综合 起 来 , 在 模型 未 知 的 情形 下 , 我 们 从 起 始 状态 出 发 , 使 用 某 种 策略 进行 
采样 , 执行 该 策略 T 步 并 获得 轨迹 


< T0, 40,71, 1, 41,72; 0+, 0T_-1,47-1,7T,2T > 


然后 , 对 轨迹 中 出 现 的 每 一 对 状态 -动作 , 记录 其 后 的 奖赏 之 和 , 作为 该 状态 - 动 


作对 的 一 次 累积 奖赏 采样 值 . 多 次 采样 得 到 多 条 轨迹 后 , 将 每 个 状态 -动作 对 的 


累积 奖赏 采样 值 进行 平均 , 即 得 到 状态 -动作 值 函 数 的 估计 . 

可 以 看 出 , 欲 较 好 地 获得 值 函 数 的 估计 , 就 需要 多 条 不 同 的 采样 轨迹 . 然 
而 , 我 们 的 策略 有 可 能 是 确定 性 的 , 即 对 于 某 个 状态 只 会 输出 一 个 动作 , 知 使 用 
这 样 的 策略 进行 采样 , 则 只 能 得 到 多 条 相同 的 轨迹 . 这 与 天 摇 臂 赌博 机 的 “ 仅 
利用 ”法 面临 相同 的 问题 , 因此 可 借鉴 探索 与 利用 折 中 的 办 法 , 例如 使 用 Be 
心 法 , 以 e 的 概率 从 所 有 动作 中 均匀 随机 选取 一 个 , 以 1 一 e 的 概率 选取 当前 最 
优 动作 . 我 们 将 确定 性 的 策略 r 称 为 “原始 策略 ”, 在 原始 策略 上 使 用 ce- 贪心 


法 的 策略 记 为 
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假定 只 有 一 个 最 优 动作 . 


默认 均匀 概率 选取 动作 . 


采样 第 s 条 轨迹 . 


对 每 一 个 状态 -动作 对 . 


计算 轨迹 中 的 累积 奖赏 . 


” 式 (16.2) 更 新 平均 奖赏 ， 


根据 值 函数 得 到 策略 ， 


第 16 章 ”强化 学 习 





it (e) = me : A ae! (16.20) 


A 中 以 均匀 概率 选取 的 动作 ， 以 概率 e. 


对 于 最 大 化 值 函 数 的 原始 策略 = arg max, Q(x, a), 其 贪心 策略 < 中， 当前 
最 优 动作 被 选中 的 概率 是 1 -e+ 所， 而 每 个 非 最 优 动作 被 选中 的 概率 是 
于 是 , 每 个 动作 都 有 可 能 被 选取 , 而 多 次 采样 将 会 产生 不 同 的 采样 轨迹 


与 策略 迭代 算法 类 似 , 使 用 蒙特 卡 罗 方法 进行 策略 评估 后 , 同样 要 对 策 
略 进 行 改进 ， HT ETT 从 策略 改进 时 利用 了 式 (16.16) 揭 示 的 单调 性 , 通过 换 
入 当前 最 优 动作 来 改进 策略 . 对 于 任意 原始 策略 or, 其 ce- 贪心 策略 x MAK 
e 的 概率 均匀 分 配给 所 有 动作 , 因此 对 于 最 大 化 值 函数 的 原始 策略 r, 同样 有 
Qr(zm(z)) > V(x), 于 是 式 (16.16) 仍 成 立 , 即 可 以 使 用 同样 方法 来 进行 策略 
改进 . 

图 16.10 给 出 了 上 述 过 程 的 算法 描述 , 这 里 被 评估 与 被 改进 的 是 同一 个 策 
略 , 因此 称 为 “ 同 策略 ”(on-policy) 蒙 特 卡 罗 强 化 学 习 算 法 . 算法 中 奖赏 均值 
采用 增 量 式 计 算 , 每 采样 出 一 条 轨迹 , 就 根据 该 轨迹 涉及 的 所 有 “状态 -动作 ” 





对 来 对 值 函数 进行 更 新 . 
输入 : 环境 EB; 
JEZE A; 
起 始 状态 zo; 
策略 执行 步 数 他. 
1: Q(x,a) = 0, a) = 0, aa) = Atay 
2: for s = 1,2,... | 
3: TEE KIUTA z 产生 轨迹 
< T0, Q0,71, T1,Q1,72,..., TT-1, 07 一 hir T UT >; 
4: fort=0,1,...,7-1 do 
5: R = Fy S ai ri; | 
6: Q(t, a4) = Penge emer E 
T count (xz, ap) = count(xz,a4) +1 
8: end for 
9: 对 所 有 已 见 状态 
三 arg max, Q(x, a N f 以 概率 1 — e; 
i 以 均匀 概率 从 4 中 选取 动作 ， 以 概率 €. 
10: end for 


输出 : 策略 a 


iodi 同 策略 蒙 特 卡 罗 强 化 学 习 算 法 
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16.4” 免 模型 学 习 


这 样 基 于 一 个 分 布 的 
采样 来 估计 另 一 个 分 布 
下 的 期 望 , 称 为 重要 性 采 
样 (importance sampling). 
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同 策略 蒙特 卡 罗 强 化 学 习 算法 最 终 产生 的 是 -贪心 策略 . 然而 , 引入 eA 
心 是 为 了 便于 策略 评估 , 在 使 用 策略 时 并 不 需要 e -贪心 ; 实际 上 我 们 希望 改进 
的 是 原始 ( 非 e- 贪 心 ) 策 略 . 那么 , 能 否 仅 在 策略 评估 时 引入 e 贪心 , 而 在 策略 改 
进 时 却 改 进 原始 策略 呢 ? 

这 其 实 是 可 行 的 . 不 妨 用 两 个 不 同 的 策略 r 和 来 产生 采样 轨迹 , 两 者 的 
区 别 在 于 每 个 “状态 -动作 对 ”被 采样 的 概率 不 同 . 一 般 的 , 函数 f 在 概率 分 布 
p 下 的 期 望 可 表达 为 


Elf] = | p(a)f(@az (16.21) 
可 通过 从 概率 分 布 p 上 的 采样 {zl 2, .zm} 来 估计 f RIE, 妈 
BA =— > f@). (16.22) 
i=1 
若 引 入 男 一 个 分 布 g, 则 函数 f 在 概率 分 布 p 下 的 期 望 也 可 等 价 地 写 为 
BUA] = f alc) fejan. (16.23) 


上 式 可 看 作 Apa) 在 分 布 g 下 的 期 望 , 因此 通过 在 gq 上 的 采样 {x4， 


q(x) 


Eh, ooe Lay 可 估计 为 





BIA] = + D PER fea). (16.24) 


回 到 我 们 的 问题 上 来 , 使 用 策略 x 的 采样 轨迹 来 评估 策略 x, 实际 上 就 是 
对 累积 奖赏 估计 期 户 


| am 
Q(x, a) = m 2, ri . / (16.25) 

车 改 用 集 略 的 采样 轨迹 来 评估 策略 r, 则 仅 需 对 累积 奖赏 加 权 , 即 
Q(x, a) = ~ > aon , (16.26) 


其 中 Pr 和 Pr 分 别 表示 两 个 策略 产生 第 i 条 轨迹 的 概率 . 对 于 给 定 的 一 条 轨 


迹 (Zo, Q0,7T1,---,%T-1,47T_-1,7TT; TT}, 策略 T 产生 该 轨迹 的 概率 为 


T-1 
| (16.27) 


一 0 
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默认 均匀 概率 选取 动作 


采样 第 s 条 轨迹 . 


重要 性 采样 系数 . 


”计算 修正 的 累积 奖赏 . 


式 (16.2) 更 新 平均 奖赏 . 


根据 值 函 数 得 到 策略 . 


第 16 BEŽI 


虽然 这 里 用 到 了 环境 的 转移 概率 Piin, 但 式 (16.24) 中 实际 只 需 两 个 策略 概 
率 的 比值 


-JI De (16.28) 


Weis ai) 





F T 为 确定 性 策略 而 r 是 的 < 贫 心 策略 , 则 al a) A 1, mr(ai ai) 
AN pay BL — e+ pa, 于 是 就 能 对 策略 r 进行 评估 了 . 图 16.11 ae “ER 
上 略 ” co pole 蒙特 卡 罗 强 化 学 习 算 法 的 描述 . 





输入 : 环境 五; 
动作 空间 A; 
起 始 状态 LQ; 
策略 执行 步 数 工 . 
过 程 : 
"ne 0, a a) = 0, a aj = AG É 
2: for s = 1,2,. 
3: ÆE 中 执行 T (的 。 贪心 策略 产生 轨迹 
< Xo0,Q0,T1, T10172,..., TT-1) QT-1),7T, LT >; 
j: PE 1—e+e/|Al, ay. 
Pi = Ye/lAl, ai # (2), 


5: fort=0,1,. ~f—ldo | 

a R= 75 Sioa xT z 
T: Q(xz, ap) = Qae) xcountlern ar) tR. 
8 


count(ztat) 十 1 ) 
count(£r, a+) = count(Zt， at) 十 1 
9: end for 
10: a(x) = arg max, Q(z, a’) 
11: end for 


输出 : 策略 r 
图 16.11， 异 策略 蒙特 卡 罗 强 化 学 习 算法 


16.4.2 时 序 #5) 学 习 
蒙特 卡 罗 强 化 学 习 算 法 通过 考虑 采样 轨迹 , 克服 了 模型 未 知 给 策略 估计 千 


成 的 困难 . 此 类 算法 需 在 完成 一 个 采样 轨迹 后 再 更 新 策略 的 值 估计 , 而 前 面 介 


绍 的 基于 动态 规划 的 策略 迁 代 和 信 迁 代 算法 在 每 执行 一 步 策略 后 就 进行 值 函 
数 更 新 . 两 者 相 比 , 蒙特 卡 罗 强 化 学 习 算 法 的 效率 低 得 多 , 这 里 的 主要 问题 是 


蒙特 卡 罗 强 化 学 习 算 法 没有 充分 利用 强化 学 习 任务 的 MDP 结构 .时 序 差分 


(Temporal Difference, 简称 TD) 学 习 则 结合 了 动态 规划 与 蒙特 卡 罗 方 法 的 思 
EL, 能 做 到 更 高 效 的 免 模 型 学 习 . 


蒙特 卡 罗 强 化 学 习 算法 的 本 质 , 是 通过 多 次 尝试 后 求 平均 来 作为 期 望 累 
ww ai bbt. com [] 0 0 0o Oo 
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积 奖赏 的 近似 , 但 它 在 求 平均 时 是 “ 批 处 理 式 ”进行 的 , 即 在 一 个 完整 的 采 
样 轨迹 完成 后 再 对 所 有 的 状态 -动作 对 进行 更 新 ， 实 际 上 这 个 更 新 过 程 能 增 
量 式 进行 ， 对 于 状态 -动作 对 (2,0), 不 妨 假定 基于 t 个 采样 已 估计 出 值 函 数 
OL) DDA ifi, UES BIB t + 1 ORF rea 时 ， 类 似 式 (16. 3), 有 


Qiy (z, a) = Qi (X; a) I (rt+1i 一 QT (x, a)). (16.29) 


1 
t+1 
显然, 只 需 给 QT a) 加 上 增 量 (rea — OF (@,a)) 即 可 .更 一 般 的 , 将 二 
BA AM oii, 则 可 将 增 量 项 写作 atyilre 一 QT(x,a)). 在 实践 中 通常 令 

ar 为 一 个 较 小 的 正 数 值 a, EK QT (2, a) 展开 为 每 步 累 积 奖 赏 之 和 , 则 可 看 出 
系数 之 和 为 1, 即 令 a =a 不 会 影响 Q 是 累积 奖赏 之 和 这 一 性 质 . 更 新 步 长 a 
RA, 则 越 靠 后 的 累积 奖赏 越 重要 . 


以 7 折扣 累积 奖赏 为 例 ， 利用 动态 规划 方法 且 考虑 到 模型 未 知 时 使 用 状 
态 - 动 作 值 函数 更 方便 , 由 式 (16.10) 有 


"(x ,a) = eae, | Risa +V” (2')) 


L'EX 
=y Fe aR Mm aO aa): (16.30) 
Ex a'EA 
通过 增 量 求 和 可 得 
Qi d = Qi (x,a) +a on + YQ (2’, a’) — Q; (x, a)) (16.31) 


其 中 s 是 前 一 次 在 状态 r 执行 动作 a 后 转移 到 的 状态 , a! ERE r E r 上 选 


” 择 的 动作 . 


使 用 式 (16.31), 每 执行 一 步 策略 就 更 新 一 次 值 函数 估计 , 于 是 得 到 图 16.12 
的 算法 . 该 算法 由 于 每 次 更 新 值 函 数 需 知道 前 一 步 的 状态 (state)、 前 一 步 的 动 
作 (action)、 奖 赏 值 (reward)、 当 前 状态 (state)、 将 要 执行 的 动作 (action)， 由 
此 得 名 为 Sarsa 算法 [Rummery and Niranjan, 1994|. 显然 , Sarsa 是 一 个 同 策 
略 算法 , 算法 中 评估 (第 6 行 )、 执 行 (第 5 行 ) 的 均 为 e- 贪 心 策略 . 


将 Sarsa 修改 为 异 策略 算法 , 则 得 到 图 16.13 描述 的 Q- 学 习 (Q-learning) 算 
法 [Watkins and Dayan, 1992], 该 算法 评 信 (第 6 Tn e- 贪 心 策略 , 而 执行 (第 
5 行 ) 的 是 原始 全 上 略 . 
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输入 : 环境 E; 
动作 空间 A; 
起 始 状态 Xo; 
eT HH Y; 
| 更 新 步 长 a. 
过 程 : 
默认 均匀 概率 选取 动作 . 1: Q(z,a) = 0, r(x,a) = ONE 





2) 0 Ent) 
3: for t = 1,2,... do $ 
rial = E BHAT a PEREA 与 转移 的 状态 ; 





单 步 执行 策略 . A: 
原始 策略 的 e- 仿 心 策略 . 5: a 三 Te(zZ/); 
式 (16.31) 更 新 值 函数 6: Q(z,a) = Q(z,a) +a(r +yQ(2',a')— Q(z,a)); 
7: (x) = argmax,, Q(z, a’); : 
8: r=2',a=a' 
9: end for 
输出 : 策略 r 
16.12 Sarsa 算法 
输入 : 环境 E; 
动作 空间 A; 
起 始 状态 zo; 
赏 折 扣 Y; 
更 新 步 长 a. 
过 程 : 
默认 均匀 概率 选取 动作 ，. 1: Q(z, a) =0, a(x, 4) = Tay 
2: £ = To; 
3: for t = 1,2,... do- 
单 步 执 行 策略 . Ae PS ae E 中 执行 动作 Tc(Z) 产生 的 奖赏 与 转移 的 状态 ; 
原始 策略 . 5 a) =e (z")s 
式 (16.31) 更 新 值 函数 ， 6: Q(x,a) = Q(a,a) + a(r + yQ’, a’) — Q(x,a)); 
7: w(x) = arg maxa Q(a, a”); 
8: =r aca 
9: end for 


输出 : 策略 7 


16.13 Q- 学 习 算 法 


“16.5 值 函数 近似 


前 面 我 们 一 直 假定 强化 学 习 任务 是 在 有 限 状 态 空间 上 进行 , 每 个 状态 可 
用 一 个 编号 来 指 代 ; 值 函 数 则 是 关于 有 限 状 态 的 “表格 值 函数 ”(tabular value 
function), 即 值 函数 能 表示 为 一 个 数组 , 输入 ; 对 应 的 函数 值 就 是 数组 元 素 ; 的 


值 ， 且 更 改 一 个 状态 二 的 值 不 会 影响 其 他 状态 上 的 值 . 然而 , 现实 强化 学 习 任 务 
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所 面临 的 状态 空间 往往 是 连续 的 , 有 无 穷 多 个 状态 . 这 该 怎么 办 呢 ? 


一 个 直接 的 想法 是 对 状态 空间 进行 离散 化 , 将 连续 状态 空间 转化 为 有 限 离 
散 状 态 空 间 , 然后 就 能 使 用 前 面 介绍 的 方法 求解 . 遗憾 的 是 ， 如 何 有 效 地 对 状态 
空间 进行 离散 化 是 一 个 难题 , 尤其 是 在 对 状态 空间 进行 探索 之 前 . 


实际 上 , 我 们 不 妨 直 接 对 连续 状态 空间 的 值 函 数 进行 学 习 . 假定 状态 空间 
为 n 维 实数 空间 X = IR”, 此 时 显然 无 法 用 表格 值 函数 来 记录 状态 值 . 先 考虑 简 


单 情形 , 即 值 函数 能 表达 为 状态 的 线性 函数 [Busoniu et al., 2010] 


Vo(x)= 0'z7, (16.32) 


其 中 z 为 状态 向 量 , 9 为 参数 向 量 . 由 于 此 时 的 值 函 数 难 以 像 有 限 状态 那 
样 精确 记录 每 个 状态 的 值 , 因此 这 样 值 函数 的 求解 被 称 为 值 函数 近似 (value 


function approximation ). 


我 们 希望 通过 式 (16.32) 学 得 的 值 函数 尽 可 能 近似 真实 值 函数 Vm, 近似 程 
度 常 用 最 小 二 乘 误 差 来 度量 : 


Eo = Exnn (Vv (x) — Vo (x) )”] | (16.33) 


其 中 Eror 表示 由 策略 x 所 采样 而 得 的 状态 上 的 期 望 
”为 了 使 误差 最 小 化 , 采用 梯度 下 降 法 , 对 误差 求 负 导数 


ð Eg S i OVo (x) 
-9 7 Es 2 (V (x) — Ve(z Der 30 | 
= Egan [2(V" (x) — Vo(a)) x] , (16.34) 
于 是 可 得 到 对 于 单个 样本 的 更 新 规则 
6=0+a(V"(a) — Vo(x)) x. (16.35) 


.我 们 并 不 知道 策略 的 真实 值 函数 V”, 但 可 借助 时 序 差分 学 习 , 基于 
V(x) =r +V" (x) 用 当前 估计 的 值 函数 代替 真实 值 函 数 , 即 


0=0+a(r 二 TVe(z ) — Vo(x)) x 


=O0+a(r+70'a' — 672) x, - (16.36) 
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其 中 x 是 下 一 时 刻 的 状态 . 


ee ee 习 中 需要 状态 -动作 值 函数 以 便 获 取 策略 . 这 里 
一 种 简单 的 做 法 是 令 9 作用 于 表示 状态 和 动作 的 联合 同 量 上 , 例如 给 状态 癌 量 
增加 一 维 用 a 即将 式 (16.32) 中 的 z BRA (xa); 另 一 种 做 法 是 
用 0/1 对 动作 选择 进行 编码 得 到 向 量 a = (0;...;1;...;0), 其 中 “1” 表 示 该 动 
作 被 选择 , 再 将 状态 向 量 与 其 合并 得 到 (x; a), 用 于 替换 式 (16.32) 中 的 zx. 这 样 
就 使 得 线性 近似 的 对 象 为 状态 -动作 值 函数 . 


基于 线性 值 函数 近似 来 替代 Sarsa 算法 中 的 值 函数 , 即 可 得 到 图 16.14 的 
线性 值 函数 近似 Sarsa 算法 . 类 似 地 可 得 到 线性 值 函 数 近似 Q- 学 习 算法 . 显然 ， 
可 以 容易 地 用 其 他 学 习 方 法 来 代替 式 (16.32) 中 的 线 性 学 习 器 ， 例如 通过 引入 核 
核 方法 参见 第 6 章 ， ”方法 实现 非 线性 值 函 数 近似 . 


输入 : 环境 E; 
动作 空间 A; 
起 始 状态 zo; 
奖赏 折扣 y; 
更 新 步 长 a. 
过 程 : 
1: 0 = 0; 
2 2S 2 a= ig = arg max, 01 (x; a"); 
3: fort= 2. 
r,&' = SWE RIITA a 产生 的 奖赏 与 转移 的 状态 
da (ae) 
0 = 0 + a(r +07 (x'; a’) — OT (æ; a))(æ; a); 
T(x) = arg max,» 0T (x; a”); 
8: ev=2',a=a’ 
9: end for 
输出 : 策略 a 


原始 策略 的 e- 贪 心 策略 . 
式 (16.36) 更 新 参数 . 


16.14 AMA BAW Sarsa 算法 


16.6 模仿 学 习 

亦 称 “ 学 徒 学 习 ” 

(apprenticeship, learning), 在 强化 学 习 的 经 典 任务 设置 中 , 机 器 所 能 获得 的 反馈 信息 仅 有 多 步 决 策 后 
from demonstration)，“ 观 ”的 累积 奖赏 , 但 在 现实 任务 中 , 往往 能 得 到 人 类 专家 的 决策 过 程 范例 , 例如 在 种 
ching), Shee sg 时 ， 瓜 任务 上 能 得 到 农业 专家 的 种 植 过 程 范例 从 这 样 的 范例 中 学 习 , 称 为 “模仿 


期 的 “ 示 教 学 习 ” 有 直接 ”学 习 ” (imitation learning). 
KA, 参见 1.5 节 . | , 
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16.6.1 直接 模仿 学 习 

强化 学 习 任 务 中 多 步 决策 的 搜索 空间 巨大 ， 基于 累积 奖赏 来 学 习 很 多 步 之 
前 的 合适 决策 非常 困难 , 而 直接 模仿 人 类 专家 的 “状态 -动作 对 ”可 显著 缓解 这 
一 困难 , 我 们 称 其 为 “直接 模仿 学 习 ”. 

假定 我 们 获得 了 一 批 人 类 专家 的 决策 轨迹 数据 (r, m., m), FAIL 
包含 状态 和 动作 序列 | 


a PEA at at ot i 
Ti (S1, Q1, $9, Qo, . SOn 


其 中 mi 为 第 i 条 轨迹 中 的 转移 次 数 . 

有 了 这 样 的 数据 , 就 相当 于 告诉 机 器 在 什么 状态 下 应 选择 什么 动作 , 于 是 
可 利用 监督 学 习 来 学 得 符合 人 类 专家 决策 轨迹 数据 的 策略 . 

我 们 可 将 所 有 轨迹 上 的 所 有 “状态 -动作 对 ”抽取 出 来 , 构造 出 一 个 新 的 数 
据 集 合 

D = 1(s1,01),(82,02),..., (SE no Om, ni) ， 

即 把 状态 作为 特征 , 动作 作为 标记 ; 然后 , 对 这 个 新 构造 出 的 数据 集合 D 使 用 
分 类 (对 于 离散 动作 ) 或 回归 (对 于 连续 动作 ) 算 法 即 可 学 得 策略 模型 . 学 得 的 这 
个 策略 模型 可 作为 机 器 进行 强化 学 习 的 初始 策略 , 再 通过 强化 学 习 方 法 基于 环 
境 反 馈 进行 改进 , 从 而 获得 更 好 的 策略 . 


16.6.2 逆 强 化 学 习 
在 很 多 任务 中 , 设计 奖赏 函数 往往 相当 困难 , 从 人 类 专家 提供 的 范例 数据 
中 有 反 推 出 奖赏 函数 有 助 于 解决 该 问题 , 这 就 是 道 强化 学 习 (inverse reinforce- 
ment learning) [Abbeel and Ng, 2004]. | 
在 逆 强 化 学 习 中 , 我 们 知道 状态 空间 X、 动 作 空 间 A, 并 且 与 直接 模仿 学 
习 类 似 , 有 一 个 决策 轨迹 数据 集 {T 72,.…. Tm} 逆 强 化 学 习 的 基本 思想 是 : AK 
使 机 器 做 出 与 范例 一 致 的 行为 , 等 价 于 在 某 个 奖赏 函数 的 环境 中 求解 最 优 策略 ， 


”该 最 优 策略 所 产生 的 轨迹 与 范例 数据 一 致 . 换言之 , 我 们 要 寻找 某 种 奖赏 函数 


使 得 范例 数据 是 最 优 的 ， 然后 即 可 使 用 这 个 奖赏 函数 来 训练 强化 学 习 策略 . 
不 妨 假设 奖赏 函数 能 表达 为 状态 特征 的 线性 函数 , 即 Ræ) = wha. FE, 
策略 r 的 累积 奖赏 可 写 为 


十 co 
=E |X R(t) = = aa z| 
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=w'E yor Zi | 可 (16.37) 
t=0 ; 7 


即 状态 向 量 加 权 和 的 期 望 与 系数 w AAR. 
将 状态 向 量 的 期 望 也 [STE ye |r] 简写 为 ix. 注意 到 获得 27 需求 取 期 


H. 我 们 可 使 用 蒙特 卡 多方 法 通过 采样 来 近似 期 望 , 而 范例 轨迹 数据 集 恰 可 看 


作 最 优 策略 的 一 个 采样 , 于 是 , 可 将 每 条 范例 轨迹 上 的 状态 加 权 求 和 再 平均 , 记 
Ae. 对 于 最 优 奖赏 函数 R(x) = w*Tz 和 任意 其 他 策略 产生 的 2", 有 


(到 — &") 20. (16.38) 


F HEMT PTA SRS Ot SE (各 一 2&7), 即 可 解 出 


w* = argmax min 0 (元 * 一 g") (16.39) 
w T 
s.t. lwl] <1 


“显然 , 我 们 难以 获得 所 有 策略 , 一 个 较 好 的 办 法 是 从 随机 策略 开始 , ARH 


求解 更 好 的 奖赏 函数 , 基于 奖赏 函数 获得 更 好 的 策略 , 直至 最 终 获 得 最 符合 范 


例 轨迹 数据 集 的 奖赏 函数 和 策略 , 如 图 16.15 算法 所 示 . 注意 在 求解 更 好 的 奖 
RRT, 需 将 式 (16.39) 中 对 所 有 和 集 略 求 最 小 改 为 对 之 前 学 得 的 策略 求 最 小 . 


输入 : 环境 E; 
状态 空间 X; 
动作 空间 A; 
Maher a D= {r1, 72,... ,7 


ta 


g _ 从 范例 轨迹 中 算出 状态 加 权 和 的 均值 向 量 : 
c= 随机 策略 ; 
: for ae 2 
= T 的 采样 抽 这 算出 状 态 加 权 和 和 的 均值 向 量 ; 
e = arg max,, mint ale — g7) s.t. lwl] <1; 
7 二 在 环境 (X, A, R(x) = w* x) 中 求解 最 优 策略 ; 
7: end for 


输出 : RR 函数 R(x) = w* oe 与 策略 元 


apne eyr 


16.15 和 迭代 式 逆 强化 学 习 工 法 
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16.7 阅读 材料 


“后 悔 ” (regret) 是 指 在 
不 确定 性 条 件 下 的 决策 与 


”确定 性 条 件 下 的 决策 所 获 


得 的 奖赏 间 的 差别 . 


Samuel 跳棋 工作 参见 
p.22. 
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16.7 阅读 材料 


强化 学 习 专门 书籍 中 最 著名 的 是 [Sutton and Barto, 1998]. [Gosavi, 2003] 
从 优化 的 角度 来 讨论 强化 学 习 , [Whiteson, 2010] 则 侧重 于 介绍 基于 演化 算法 
搜索 的 强化 学 习 方 法 . [Mausam and Kolobov, 2012] 从 马尔 可 夫 决 策 过 程 的 视 
角 介 绍 强化 学 习 , [Sigaud and Buffet, 2010| 覆盖 了 很 多 内 容 , 包括 本 章 示 介绍 
的 部 分 可 观察 马尔 可 夫 决策 过 程 (Partially Observable MDP, 简称 POMDP)、 
策略 梯度 法 等 . 基于 值 函数 近似 的 强化 学 习 可 参阅 [Busoniu et al., 2010]. 

欧洲 强化 学 习 研讨 会 (BEWRL) 是 专门 性 的 强化 学 习 系列 研讨 会 , 多 学 科 强 
化 学 习 与 决策 会 议 (RLDM) 则 是 从 2013 年 开始 的 新 会 议 . | 

[Kaelbling et al., 1996] 是 一 个 较 早 的 强化 学 习 综 述 ，[ 攻 ober et al., 2013; 
Deisenroth et al., 2013] 则 综述 了 强化 学 习 在 机 器 人 领域 的 应 用 . 

[Kuleshov and Precup, 2000] 和 [Vermorel and Mohri, 2005] 介绍 了 多 种 
天 - 摇 臂 赌博 机 算法 并 进行 了 比较 . 2 UR Sh ARA A EW 
究 [Berry and Fristedt, 1985], 近年 来 在 “在 线 学 习 ”(online learning)、“ 对 
抗 学 习 ”(adversarial learning) 等 方面 有 广泛 应 用 , [Bubeck and Cesa-Bianchi, 
2012] 对 其 “ 悔 界 ”(regret bound) 分 析 方 面 的 结果 进行 了 综述 . 

时 序 差 分 (TD) 学 习 最 早 是 A. Samuel 在 他 著名 的 跳棋 工作 中 提出 
[Sutton, 1988] 提出 了 TD(A) 算法 , 由 于 [Tesauro, 1995] 基于 TD(A) 研制 的 
TD-Gammon 程序 在 西洋 双 陆 棋 上 达到 人 类 世界 冠军 水 平 而 使 TD 学 习 备 受 
关注 . Q- 学 习 算 法 是 [Watkins and Dayan, 1992] 提出 , Sarsa 则 是 在 Q- 学 习 算 
法 基础 上 的 改进 [Rummery and Niranjan, 1994]. TD 学 习 近 年 来 仍 有 改进 和 
推广 , 例如 广义 TD 学 习 [Ueno et al., 2011]、 使 用 资格 迹 (eligibility traces) 的 
TD 学 习 [Geist and Scherrer, 2014| 等 . [Dann et al., 2014] 对 TD 学 习 中 的 策略 
评估 方法 进行 了 比较 . 

模仿 学 习 被 认为 是 强化 学 习 提 速 的 重要 手段 [Lin, 1992; Price and Boutili- 
er, 2003], 在 机 器 人 领域 被 广泛 使 用 [Argall et al., 2009]. [Abbeel and Ng, 2004; 
Langford and Zadrozny, 2005] 提出 了 逆 强 化 学 习 方 法 . 

在 运筹 学 与 控制 论 领域 , 强化 学 习 方面 的 研究 被 称 为 “近似 动态 规 
划 ”(approximate dynamic programming), 可 参阅 [Bertsekas, 2012]. 
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用 于 天 - 摇 臂 赌博 机 的 UCB (Upper Confidence Bound, 上 置信 界 ) 方 


法 每 次 选择 Q(k) + UC(k) RARR, 其 中 Q(k) ARE k AP 
均 奖赏 , UC(k) 为 置信 区 间 . 例如 





其 中 必 为 已 执行 所 有 摇 辟 的 总 次 数 , nk UTR ORL. 试 比 
较 UCB 方法 与 e 贪心 法 和 Softmax 方法 的 异同 . 


借鉴 图 16.7, 试 写 出 基于 y 折扣 奖赏 函数 的 策略 评 佑 算法. 
借鉴 图 16.8, 试 号 出 基于 折扣 奖赏 函数 的 策略 迭代 算法 . 


在 没有 MDP 模型 时 , 可 以 先 学 习 MDP 模型 (例如 使 用 随机 策略 进行 
采样 , 从 样本 中 佑 计 出 转移 函数 和 奖 芝 函数 ), 然后 再 使 用 有 模型 强化 
学 习 方 法 . 试 述 该 方法 与 免 模型 强化 学 习 方 法 的 优 缺 点 . 


试 推导 出 Sarsa 算法 的 更 新 公式 (16.31). 


试 借鉴 图 16.14 给 出 线性 值 函 数 近似 Q- 学 习 算 法 . 


线性 值 函数 近似 在 实践 中 往往 有 较 大 误差 . 试 结合 BP 神经 网 络 , 将 
线性 值 函 数 近似 Sarsa 算法 推广 为 使 用 神经 网 络 近似 的 Sarsa 算法 ， 
试 结合 核 方法 , 将 线性 值 函数 近似 Sarsa 算法 推广 为 使 用 核 函 数 的 非 
线性 值 函 数 近似 Sarsa 算法 . | 


对 于 目标 驱动 (goal-directed) 的 强化 学 习 任务 ， H 标 是 到 达 某 一 状态 , 
例如 将 汽车 驾驶 到 预定 位 置 . 试 为 这 样 的 任务 设置 奖赏 函数 , 并 讨论 


“不同 奖赏 函数 的 作用 (例如 每 一 步 未 达 目 标的 奖赏 为 0、 一 1 或 1). 


与 传统 监督 学 习 不 同 , 直接 模仿 学 习 在 不 同时 刻 所 面临 的 数据 分 布 可 
能 不 同 . 试 设计 一 个 考虑 不 同时 刻 数据 分 布 变 化 的 模仿 学 习 算 法 . 
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切 比 雪夫 在 圣彼得堡 大 
学 培养 出 马尔 可 夫 、 李 亚 
普 诺 夫 、 柯 尔 金 、 格 拉 维 
等 著名 数学 家 , 还 影响 了 
圣彼得堡 大 学 之 外 的 很 多 
志 着 俄罗斯 数学 走 到 了 世 
界 前 沿 . 
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小 故事 : 马尔 可 夫 决 策 过 程 与 安 德 烈 。 马 尔 可 夫 

安 德 烈 。 安 德 烈 维 奇 .马尔 可 夫 (Andrey Andreyevich 
Markov, 1856 一 1922) 是 著名 俄罗斯 数学 家 、 圣 彼得 堡 数 学 
学 派 代 表 性 人 物 , ERED. Bb. BRR. HOT 
等 方面 有 重要 贡献 . | Tà 

马尔 可 夫 出 生 在 莫斯科 东南 的 梁 赞 (Ryazan), 17 岁 时 
独立 发 现 了 一 种 线性 常 微分 方程 的 解法 , 引起 了 圣彼得堡 大 学 几 位 数学 家 的 注 
K. 1874 年 他 考 入 圣彼得堡 大 学 数学 系 , 1878 年 毕业 并 留 校 任教 , 1884 年 获 博 
士 学 位 , 导师 是 圣彼得堡 学 派 领袖 、 著 名 数学 家 切 比 雪夫 . 此 后 马尔 可 夫 一 直 
在 圣彼得堡 大 学 任教 . 马尔 可 夫 在 早期 主要 是 沿 着 切 比 雪夫 开创 的 方向 , 改进 
和 完善 了 大 数 定律 和 中 心 极限 定理 , 但 他 最 重要 的 工作 无 颖 是 开辟 了 随机 过 得 
这 个 领域 . 他 在 1906 一 1912 年 间 提 出 了 马尔 可 夫 链 , 开创 了 对 马尔 可 夫 过 程 的 
研究 . 现实 世界 里 小 到 分 子 的 布朗 运动 、 大 到 传染 病 流行 过 程 , 马尔 可 夫 过 程 
几乎 无 所 不 在 . 在 他 的 名 著 《 概 率 演算 》 中 , 马尔 可 夫 是 以 普希金 的 长 诗 《 叶 
十 根 尼 .。 奥 涅 金 》 中 元 、 辅 音字 母 变化 的 规律 为 例 来 展示 马尔 可 夫 链 的 性 质 . 
马尔 可 夫 决 策 过 程 是 马尔 可 夫 过 程 与 确定 性 动态 规划 的 结合 , 基本 思想 在 二 十 
世纪 五 十 年 代 出 现 , 此 时 马尔 可 夫 已 去 世 三 十 多 年 了 . 

马尔 可 夫 的 儿子 也 叫 安 德 烈 。 安 德 烈 维 奇 。 马 尔 可 夫 (1903 一 1979), 也 是 
著名 数学 家 , RBBB “LR TAM” (Markov Principle)、“ 马 尔 可 夫 
规则 ”(Markov Rule), 理论 计算 机 科学 中 图 灵 完 备 的 “马尔 可 夫 算 法 ”等 , 是 





， 以 小 马尔 可 夫 的 名 字 命 名 的 . 马尔 可 夫 的 弟弟 弗 拉 基 米 尔 。 安 德 烈 维 奇 。 马 尔 


可 夫 (1871- 一 1897) 也 是 一 位 数学 家 ，“ 马 尔 可 夫 兄 弟 不 等 式 ” 就 是 以 他 和 哥哥 
安 德 烈 的 名 字 命 名 的 . 
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常 直接 用 工 表示 单位 阵 . 


附录 


A FB Re 
A.l 基本 演算 
id So HEE A E 了 mx 第 i 行 第 7 列 的 元 素 为 (A)i = Aiz. JERE A 的 转 
置 (transpose) 记 为 AT, (AT)i = Aj. 显然 ， 
(A+B)T= AT+BT, | (A.1) 
(AB)'=BTA!. (A.2) 
对 于 矩阵 A eR", Æ m = n 则 称 为 n 阶 方 阵 . 用 n RR n 阶 单位 阵 , 方 阵 
A 的 道 矩 阵 AW! HE AAT! = ATIA = 工 . 不 难 发 现 ， 
(AD) = (A) (A.3) 
(AB) = BA“! . (A.4) 


OF n Br A, 它 的 迹 (trace) 是 主 对 角 线 上 的 元 素 之 和 , 即 tr(A) = 


| Ay. 迹 有 如 下 性 质 : 


tr(AT) = tr(A) , (A.5) 
tr(A +B) = tr(A) + tr(B) , (A.6) 
tr(AB) = tr(BA) , : (A.7) 
tr(ABC) = tr(BCA) = tr(CAB) . (A.8) 


n 阶 方 阵 A 的 行列 式 (determinant) 定 义 为 


det(A) = >》 par(o)Aio A202 ++» Aton ， (A.9) 
OESn 
其 中 Sn 为 所 有 nn 阶 排列 (permutation) 的 集合 , par(o) 的 值 为 —1 BK +1 取决 


Tos (cb oa oy On) ARE UR SEF, 即 其 中 出 现 降 序 的 次 数 为 奇数 或 偶 
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数 , 例如 (1,3,2) 中 降序 次 数 为 1， (1, 4,3,2) 中 降序 次 数 为 2 对 于 单位 阵 ， 有 
det(I) = 1. 对 于 2 阶 方 阵 , 有 


Aji A12 


det(A) = Y 
Agi A22 


) = Ai1A22 — AizAai . 


n 阶 方 阵 A 的 行列 式 有 如 下 性 质 : 


det(cA) = cr det(A) , | | (A.10) 
det(AT) = det(A), (A.11) 
det(AB) = det(A) det(B) , © (AID 
det(A 7t) = det(A)7? , (A.13) 
det(A”) = det(A)” . (A.14) 


和 矩阵 A e R”X” 的 :Frobenius 范 数 定义 为 
1/2 | 
[Alle = (aTa)! oe -(Ex« : (A.15) 
. 2 二 1 j=1 
容易 看 出 , 矩阵 的 Frobenius 范 数 就 是 将 矩阵 张 成 向 量 后 的 La 范 数 
A.2 导数 


向 量 a 相对 于 标量 g B 以 及 x 相对 于 a 的 导数 都 是 问 
量 , 其 第 :个 分 量 分 别 为 





Oa | Oa; | | | 
Ox Ox 
(5a), = Bas Tn 
类 似 的 , 矩阵 A 对 于 标量 r 的 导数 , UE r 对 于 A 的 导数 都 是 矩阵 , 其 第 
i 行 第 j 列 上 的 元 素 分 别 为 
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A 和 矩阵 | ; 401 
Ox Ox | 
tas 0hi; ` i 


对 于 函数 flo), 假定 其 对 向 量 的 元 素 可 导 , W f(z) 关于 z 的 一 阶 导数 是 
一 个 向 量 , 其 第 ;个 分 量 为 


Dj (x) 








f(x) KF x WB Be Be A HE ARE BE (Hessian matrix) 的 一 个 方 阵 , 其 第 i 
行 第 7 列 上 的 元 素 为 


向 量 和 矩阵 的 导数 满足 乘法 法 则 (product rule) 


a 相对 于 z 为 常 向 量 . Ora _ ba x = | 
OAB OA OB ; 
“Oe Oe oe ani 


H ATIA = IA st(A.23), 道 矩 阵 的 导数 可 表示 为 


人 














Br Ox 9 
“车 求 导 的 标量 是 矩阵 A 的 元 素 , WE 
Otr(AB) | i 
an By , (A.25) 
Otr(AB) pr | 
aA = BT. (A.26) 
进而 有 
ðtr(ATB) | 
Otr(A) _ 
aA 5l, (A.28) 
ABRI. A(B +B"). (A.29) 


O 
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由 式 (A.15) 和 (A.29) 有 


ðA} etr(AAT) . | 
AA RAT OT A (A.30) 





链 式 法 则 (chain rule) 是 计算 复杂 导数 时 的 重要 工具 . 简单 地 说 若 函 数 f 
是 9 MAMA, 即 f(x) =g(h(2)), WA 


Of(x) _ Ag(h(x)) hlz) 








ðr Oh(x) Oz ` | _ en 
例如 在 计算 下 式 时 , 将 Az — b 看 作 一 个 整体 可 简化 计算 : 
ð D(Az —b 
= 2AW (Ax — b) . (A.32) 
3 奇异 值 分 解 | 
任意 KE RE A € Rmxn 都 可 分 解 为 
A= USV? ， (A.33) 


其 中 ， U € RO" 是 满足 UTU = I Hj m AERE (unitary matrix); V € RX” 
是 满足 VTV = I H n NEER, D eRT 是 m x n 的 矩阵 , 其 中 (Da = oi 

常 将 奇异 值 按 降序 排列 人 aE ky on Rew Sat 
Sates ee. 且 其 他 位 置 的 元 素 均 为 0, oi 为 非 负 实数 且 满 足 ol > 02>... 30. 

当 A 为 对 称 正定 矩阵 式 (A.33) 中 的 分 解 称 为 奇异 值 分 解 (Singular Value Decomposition, 简称 
SVD), HU 的 列 癌 量 w; € R” 称 为 A 的 左 奇 异 向 量 (left-singular vector), 
分 解 结果 相同 . 
| V 的 列 癌 量 v; € R” 称 为 A 的 右 奇 异 问 量 (right-singular vector), 0; 称 为 奇异 

值 (singular value). 矩阵 A 的 秩 (rank) 就 等 于 非 零 奇异 值 的 个 数 . 


”奇异 值 分 解 有 广泛 的 用 途 , 例如 对 于 低 秩 和 矩阵 近似 (low-rank matrix ap- 
proximation) 问 题 , 给 定 一 个 秩 为 + 的 矩阵 A, 和 欲求 其 最 优 k FRIES Bp A, 
ksr, 该 问题 可 形式 化 为 


_min |A- Al (A.34) 
AER™Xn l 
s.t. rank(A) = 
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B 优化 


函数 等 值 线 与 约束 曲面 
相 切 

可 通过 反 证 法 证 明 : 车 
梯度 Vf(x*) 与 约束 曲面 
KER, 则 仍 可 在 约束 曲 
面 上 移动 该 点 使 函数 值 进 
一 步 下 降 . 


REA AR, A 可 能 为 
正 也 可 能 为 负 . 
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奇异 值 分 解 提供 了 上 述 问题 的 解析 解 : AERE A 进行 奇异 值 分 解 后 , 将 矩 
阵 互 中 的 > 一 K TRAD ETP EES RFS ARE Er, 即 仅 保留 最 大 的 有 个 奇异 
值 , 则 
A, = ULE VT (A.35) 
就 是 式 (A.34) 的 最 优 解 , 其 中 Uk 和 Vi 分 别 是 式 (A.33) 中 的 前 上 列 组 成 的 矩 
ME. 这 个 结果 称 为 Eckart-Young-Mirsky 定理 . 


B 优化 
B.1 拉 格 朗 日 乘 子 法 


pike BAA HES YE (Lagrange ‘oases 一 种 寻找 多 元 函数 在 一 组 约束 下 
的 极 值 的 方法 . 通过 引入 拉 格 朗 日 乘 子 , 可 将 有 d 个 变量 与 个 约束 条 件 的 最 
优化 问题 转化 为 具有 a 十 有 个 变量 的 无 约束 优化 问题 求解 . 

先 考虑 一 个 等 式 约 束 的 优化 问题 . 假定 z 为 a SE, 欲 寻找 z 的 某 个 取 
值 2*, 使 目标 函数 f(x) 最 小 且 同时 满足 g(x) = 0 的 约束 . 从 几何 角度 看 , 该 问 
题 的 目标 是 在 由 方程 g(x) = 0 确定 的 qd--1L 维 曲面 上 寻找 能 使 目标 函数 f(a) 
最 小 化 的 点 . 此 时 不 难得 到 如 下 绪论 : 


。 对 于 约束 曲面 上 的 任意 点 xw, 该 点 的 梯度 Vg(z) 正 交 于 约束 曲面 ; 
。 在 最 优点 ze*, 目标 函数 在 该 点 的 梯度 V f(a") 正 交 于 约束 曲面 . 


由 此 可 知 , ERRA 2*, 如 附 图 B.1 所 示 , 梯度 Vg(z) 和 Vf (ae) 的 方向 必 相 同 
或 相反 , 即 存在 A A 0 使 得 


y f(a") +AVg(a*)=0, (B.1) 
入 称 为 拉 格 朗 日 乘 子 . 定义 拉 格 妆 日 函数 

L(x, A) = f(a) + Ag(a) , (B.2) 
不 难 发 现 , 将 其 对 z 的 偏 导 数 VoL(z, 入) 置 零 即 得 式 (B.1), 同时 , 将 其 对 入 的 


偏 导数 Vy L(x, 入) 置 零 即 得 约束 条 件 g(x) = 0. 于 是 , 原 约束 优化 问题 可 转化 


为 对 拉 格 朗 日 函数 Le, A) RAG ADR ANE 问题 . 
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(a) 等 式 约束 (b) 不 等 式 约束 


HEB. 1 拉 格 朗 日 乘 子 法 的 几何 含义 : 在 (a) 等 式 约束 g(z) = 0 或 (b) 不 等 式 约束 
g(a) <0 F, 最 小 化 目标 函数 f(a). 红色 曲线 表示 g(a) 二 0 构成 的 曲面 , MEHR 
阴影 区 域 表 示 g(x) < 0. 


现在 考虑 不 等 式 约束 g(x) < 0, 如 附 图 B. 1 所 示 , 此 时 最 优点 zx* 或 在 
g(a) < 0 的 区 域 中 , 或 在 边界 g(a) = 0 上 ， 对 于 g(x) < 0 的 情形 , 约束 
g(a) < 0 不 起 作用 , 可 直接 通过 条 件 Vf(x) = 0 来 获得 最 优点 ; 这 等 价 于 将 入 
置 零 然后 对 Ver(z, 和 ) 置 零 得 到 最 优点 .g(x) = 0 的 情形 类 似 于 上 面 等 式 约 
束 的 分 析 , 但 需 注 意 的 是 , 此 时 VE (a) 的 方向 必 与 Yg(x*) 相反 , 即 存在 常数 
A> 0 使 得 Vf(zx*) 十 和 Vg(w*) = 0. 整合 这 两 种 情形 , WE Ag(a) = 0. 因此 ， 
在 约束 g(x) <0 下 最 小 化 f(x), 可 转化 为 在 如 下 约束 下 最 小 化 式 (B.2) 的 拉 格 
BH H PAŽE: 


AZO (B.3) 
Hj9j(@) = 0. 
式 (B.3) 称 为 Karush-Kuhn-Tucker (简称 KKT) 条 件 . 


上 述 做 法 可 推广 到 多 个 约束 . 考虑 具有 m 个 等 式 约束 和 个 不 等 式 约束 ， 
且 可 行 域 D C RI 非 空 的 优化 问题 


引入 拉 格 明日 乘 于 A = (Ai, A2, a aom 和 H = (u1, H2, a ales 相应 的 拉 格 
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朗 日 函数 为 2 
L(x, à, p) = f(a) + > Aihi(@) + X ujg;(®) , (B.5) 
i=1 j=1 


由 不 等 式 约束 引入 的 KKT 条 件 (7 = 1,2,...,n)H 


Wi9i(2)=0. 


一 个 优化 问题 可 以 从 两 个 角度 来 考察 , 即 “ 主 问题 ” (primal problem) 和 
“对 偶 问 题 ” (dual problem). 对 主 问 题 (B.4)， 基于 式 (B.5)， 其 拉 格 朗 日 “对偶 
在 推导 对 偶 问 题 时 ,， 常 pei BY” (dual function) T : R” x R” > R 定义 为 
通过 将 拉 格 朗 日 来 子 
L(zw, 和 ,4) 对 s REIS 


导数 为 0, 来 获得 对 侦 函 数 D(A, u) = inf Lz, A, p) 
的 表达 形式 . \ | 
| m n 
= int (16 ae S > Asha(@) F Suat) ; (B.7) 


六 二 0 表示 必 的 分 量 均 大 色 ED 为 主 问题 (B.4) 可 行 域 中 的 点 , 则 对 任意 凡 关 0 和 入 都 有 


> Nhi(z) + > gj(z) 和 0， (B.8) 
i=1 j=l 
进而 有 
P(A, p) = inf L(x, A, u) < L(ž,A, u) < f(z). (B.9) 


者 主 问 题 (B.4) 的 最 优 值 为 p*, WAER u > 0 ARS 
D(A, u) <p", (B.10) 


即 对 偶 函 数 给 出 了 主 问题 最 优 值 的 下 界 . 显然 ， 这 个 下 界 取 决 于 jw 和 入 的 值 . 
于 是 , 一 个 很 自然 的 问题 是 : 基于 对 偶 函 数 能 获得 的 最 好 下 界 是 什么 ? 这 就 引 


出 了 优化 问题 
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这 称 为 Slater 条 件 . 


非 标 准 二 次 规划 问题 中 


可 以 包含 等 式 约束 注意 
”到 等 式 约束 能 用 两 个 不 等 


RARER, REAM 
束 可 通过 增加 松弛 变量 的 
方式 转化 为 等 式 约 束 


附 录 


max r(A, u) st. ord. (B11) 
H 


式 (B.) 就 是 主 问题 (B RH, JAM p AHRR” (dual 
variable). 无 论 主 问 题 (B.4) 的 凸 性 如 何 , 对 偶 问 题 (B.11) 始 终 是 凸 优化 问题 . 
考虑 式 (B.11) 的 最 优 值 d, 显然 有 d < p, IRA “DAAE” (weak 
duality) KL; Æ d* = p*, 则 称 为 “ 强 对 偶 性 ”(strong duality) 成 立 , 此 时 由 对 
偶 问 题 能 获得 主 问 题 的 最 优 下 界 . 对 于 一 般 的 优化 问题 , 强 对 偶 性 通常 不 成 立 . 
但 是 , 若 主 问题 为 凸 优化 问题 , 如 式 (B.4) 中 f(x) 和 gj(z) 均 为 同 函 数 , hile) 为 
仿 射 函数 , 且 其 可 行 域 中 至 少 有 一 点 使 不 等 式 约束 严格 成 立 , 则 此 时 强 对 偶 性 
成 立 . 值得 注意 的 是 , 在 强 对 偶 性 成 立时 , 将 拉 格 朗 日 函数 分 别 对 原 变量 和 对 偶 
变量 求 导 , 再 并 令 导 数 等 于 零 , 即 可 得 到 原 变量 与 对 偶 变 量 的 数值 关系 . 于 是 ， 


对 偶 问 题解 决 了 ， 主 问题 也 就 解决 了 ， 


B.2 二 次 规划 

二 次 规划 (Quadratic Programming, 简称 QP) 是 一 类 典型 的 优化 问题 , 包 
插 凸 二 次 优化 和 非 凸 二 次 优化 . 在 此 类 问题 中 , 目标 函数 是 变量 的 二 次 函数 , 而 
约束 条 件 是 变量 的 线性 不 等 了 | 

假定 变量 个 数 为 d, 约束 条 件 的 个 数 为 m, 则 标准 的 二 次 规划 问题 形 如 


.1 
min © 57 QT 十 c 2 (B.12) 
化 


st. Ax <b, 


其 中 为 4 维 向 量 , Q € ROO A SERRA, A c RTI 为 实 矩 阵 , be R™ 和 
CE R? NHE, Ax <b 的 每 一 行 对 应 一 个 约束 . 

若 Q 为 半 正 定 矩 阵 , 则 式 (B.12) 目 标 函 数 是 凸 函数 ， 相应 的 二 次 规划 是 凸 
二 次 优化 问题 ; 此 时 若 约束 条 件 Az < 5 定义 的 可 行 域 不 为 空 , 且 目 标 函 数 在 
此 可 行 域 有 下 界 , 则 该 问题 将 有 全 局 最 小 值 . 看 Q 为 正定 矩阵, 则 该 问题 有 唯 
一 的 全 局 最 小 值 . 若 Q 为 非 正定 矩阵 , 则 式 (B. Se Re 
点 的 NP 难 问题 . 

常用 的 二 次 规划 解法 有 椭 球 法 (ellipsoid method)、 内 点 法 (interior 
point)、 增 广 拉 格 朗 日 法 (augmented Lagrangian), HERF “1%:(gradient pro- 
jection) 等 . 4 Q 为 正定 矩阵 , 则 相应 的 二 次 规划 问题 可 由 椭 球 法 在 多 项 式 时 


间 内 求解 . 
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B.3 半 正 定 规划 


半 正 定 规划 (Semi-Definite Programming, 简称 SDP) 是 一 类 凸 优化 问题 ， 
其 中 的 变量 可 组 织 成 半 正 定 对 称 算 阵 形 式 , 且 优 化 问题 的 目标 函数 和 约束 都 是 
这 些 变量 的 线性 函数 . 


给 定 dxd 的 对 称 逢 阵 XX、 C, 


C.X= ox (B.13) 
?一 1 j=1 


j= 
# Ai (i = 1,2,...,m) 也 是 d xd 的 对 称 矩 阵 , bi (i = 1,2,...,m) 为 mm 个 实数 ， 
则 半 正 定 规划 问题 形 如 as 
min C.X (B.14) 
= : - 


st. A;-X=b;,7=1,2,...,m 
X> ORR XK FER. 7 : X>0O. 


半 正 定 规划 与 线性 规划 都 拥有 线性 的 目标 函数 和 约束 , 但 半 正 定 规划 中 的 
AR X > 0 是 一 个 非 线性 、 非 光滑 约束 条 件 . 在 优化 理论 中 , 半 正 定 规划 具有 
一 定 的 一 般 性 , 能 将 几 种 标准 的 优化 问题 (如 线 性 规划 、 二 次 规划 ) 统 一 起 来 


常见 的 用 于 求解 线性 规划 的 内 点 法 经 过 少许 改造 即 可 求解 半 正 定 规划 问 
题 , 但 半 正 定 规划 的 计算 复杂 * 度 较 高 ac 难以 直接 用 于 大 规模 问题 
B.4 梯度 下 降 法 


梯度 下 降 法 (gradient descent) 是 一 种 常用 的 一 阶 (first-order) 优 化 方法 , 是 
ERA DA 求解 无 约束 优化 问题 最 简单 、 最 经 典 的 方法 之 一 . 


数 的 一 阶 导 数 ， 不 利用 其 
高 阶 导 数 . 考虑 无 约束 优化 问题 ming f(x), 其 中 f(x) 为 连续 可 微 函数 . 本 能 构造 一 
个 序列 z0, ct, z2, ... 满足 


fia < f(x), = T (B.15) 
则 不 断 执行 该 过 程 即 可 收敛 到 局 部 极 小 点 . AER), 根据 泰勒 展 式 有 


T 
WAW al m pn 和 和 (2) + Ae VIG j: es 
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每 步 的 步 长 ys 可 不 同 . 


L-Lipschitz 条 件 是 指 对 
于 任意 m, 存在 常数 工 使 


4% ||Vf(@)|| < L RÈ. 


求解 极 大 值 问题 时 亦 称 
“坐标 上 升 法 ” 


nate ascent). 


(coordi- 


附录 
于 是 , 欲 满 足 f(a + Ax) < f(x), 可 选择 
Az = —7V f(x) , (B.17) 


其 中 步 长 y 是 一 个 小 常数 . 这 就 是 梯度 下 降 法 . 

若 目 标 函 数 f(z) 满足 一 些 条 件 , 则 通过 选取 合适 的 步 长 , 就 能 确保 通过 梯 
度 下 降 收 敛 到 局 部 极 小 点 . 例如 若 f(x) 满足 L-Lipschitz AF, 则 将 步 长 设置 
A1/(2L) 即 可 确保 收敛 到 局 部 极 小 点 . 当 目 标 函 数 为 凸 函 数 时 , 局 部 极 小 点 就 
对 应 着 函数 的 全 局 最 小 点 , 此 时 梯度 下 降 法 可 确保 收敛 到 全 局 最 优 解 . 

当 目 标 函 数 f(z) 二 阶 连续 可 微 时, 可 将 式 (B.16) 替 换 为 更 精确 的 二 阶 泰勒 
EN, 这 样 就 得 到 了 牛顿 法 (Newton’s method). 牛顿 法 是 典型 的 二 阶 方 法 ， IL 
迭代 轮 数 远 小 于 梯度 下 降 法 . 但 牛顿 法 使 用 了 二 阶 导 数 V2 f(z), IAA 
涉及 到 海 森 矩 阵 (A.21) 的 求 首 , 计算 复杂 度 相 当 高 , 尤其 在 高 维 问题 中 几乎 不 
可 行 . 若 能 以 较 低 的 计算 代价 寻找 海 森 矩 阵 的 近似 逆 矩 阵 , 则 可 显著 降低 计算 
开销 , 这 就 是 拟 牛 顿 法 (quasi-Newton method). 

B.5 坐标 下 降 法 

坐标 下 降 法 (coordinate descent) 是 一 种 非 梯度 优化 方法 , 它 在 每 步 迭 代 中 
滑 一 个 坐标 方向 进行 楼 索 , 通过 循环 使 用 不 同 的 坐标 方向 来 达到 目标 丽 煞 的 局 
部 极 小 值 . 

不 妨 假设 没 目标 是 求解 函数 f(z) 的 极 小 值 , 其 中 = (e1,22,...,04)7 € 
Ri 是 一 个 d 维 向 量 . 从 初始 点 20 开始 , 坐标 下 降 法 通过 迭代 地 构造 序列 
Z0 2 22，.…. 来 求解 该 问题 , aot) 的 第 i 个 分 量 zi ”构造 为 

t+1 


Ti = arg min BO (B.18) 
yE 


通过 执行 此 操作 , 显然 有 


f(a) > fle) > fle) >... (B.19) 


与 梯度 下 降 法 类 似 , 通过 迭代 执行 该 过 程 , 序列 20, zl z2,... 能 sarmu 
的 局 部 极 小 点 或 驻 点 (stationary point). 

坐标 下 降 法 不 需 计算 目标 函数 的 梯度 , 在 每 步 失 代 中 仅 需求 解 一 维 搜索 问 
题 , 对 于 某 些 复杂 问题 计算 较为 简便 . 但 若 目标 函数 不 光滑 , 则 坐标 下 降 法 有 可 


能 陷入 非 驻 点 (non-stationary point). 
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C 概率 分 布 
C1 常见 概率 分 布 


本 节 人 简要 介绍 几 种 常见 概率 分 布 . 对 于 每 种 分 布 , 我 们 将 给 出 概率 密度 函 
数 以 及 期 望 El. J. 方差 var[:| MMA cov[-,-] 等 几 个 主要 的 统计 量 . 


C.1.1 均匀 分 布 


pe 均匀 分 布 (uniform distribution) 是 关于 定义 在 区 间 [a,b] (a < b) R 
布 . 量 的 简单 概率 分 布 , 其 概率 密度 函数 如 附 图 C.1 所 示 . 





附 图 C. 1 均匀 分 布 的 概率 密度 函数 











po 一 UZC a,b) =~ — ; E (C.1) 
El = “=, (C2) 
ile i (G3) 


不 难 发 现 , ERE z 服从 均匀 分 布 U(z | 0,1) Ba < b, Wat (5 一 a)zx 服 
从 均匀 分 布 U(z | a,b). 


o C12 伯 努 利 分 布 -5 
以 瑞士 数学 家 雅 各 布 . 伯 努 利 分 布 (Bernoulli distribution) 是 关于 布尔 变量 zx E€ {0,1} 的 概率 分 
伯 努 利 (Jacob Bernoulli, 4s op RH 二 恋 量 — 1 MER 
1654--1705) 的 名 字 命 名 ， 布 , 其 连续 参数 we [0， 1] 表示 变量 t=1 的 概率 . 


P(z | p) = Bern(z | p) = p? (1 -1) ; (C.4) 
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3 二 项 分 布 


一 项 分 布 (binomial distribution) 用 以 描述 N 次 独立 的 伯 努 利 实验 中 有 m 
次 成 功 ( 即 z = 1) 的 概率 , 其 中 每 次 伯 努 利 实验 成 功 的 概率 为 u € [0, 1]. 


Pm | ND) =Bin(m | Nu) = (N Ja -a (Cn 
Els] = Np; (C8) 
var|z] = Na(l — u) . | (C.9) 


对 于 参数 p, 二 项 分 布 人 | 
EEE OE EDET 当 N =1 时 , 二 项 分 布 退 化 为 伯 努 利 分 布 . 
布 . 共 力 分 布 参见 C.2. 


C.1.4 多 项 分 布 


若 将 伯 努 利 分 布 由 单 变 量 扩展 为 维 向 量 z, 其 中 zi € {0,1} BOL ai = 
1, 并 假设 zi; 取 1 的 概率 为 ys < [0,2], Sofa ps = 1, 则 将 得 到 离散 概率 分 布 


P(x | p) = The (C.10) 
| Elzil 一 Li ; (C.11) 
var[zi| = ui(1 — ui) ; | | (C.12) 
cov|a;, æ] = Ij = i] Hi >- l (C.13) 


在 此 基础 上 扩展 二 项 分 布 则 得 到 多 项 分 证 (multinomial EER 它 
ARAMA ALAA 描述 了 在 入 eee eres mi Rri=1 的 概率 . 
雷 分 布 . ARDA AIL 


= Plmi,m2,...,ma | N, p) SNr ma | N, 1) 


C.14 
G ( ) 


E|m,| = N pj; ) (C.15) 
ww ai bbt.com TOOOO00 





var|m,| = Nuill 一 Li) ， (C.16) 


cov[my, mi] = -N pjp ， (C.17) 


C15 贝塔 分 布 


贝塔 分 布 (Beta distribution) 是 关于 连续 变量 u € 10,1| 的 概率 分 布 , 它 由 
两 个 参数 a > 0 Al b> 0 确定 , 其 概率 密度 函数 如 附 图 C.2 Aras. 








Beta(p | 0.5, 0.5)! 


附 图 C. 2 Wk Apa ay EE SE A 


Tia+b) a 


p(u | a,b) = Beta(p | a,b) = Far)" (1 — u)? 
“Fen Ow (C.18) 
Ell = 53 (C.19) 
ab 
ey (0.20) 
EHF T(a) 为 Gamma 函数 
Tr(a) = m Me di (C.21) 
0 
B(a,b) 为 Beta 函数 


ww ai bbt. com nooognool +29) 
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以 德国 数学 家 狄 利克 雷 
(1805 一 1859) 的 名 字 命 名 . 


o 为 标准 差 . 


附 录 
Sa=b=1N, 贝塔 分 布 退化 为 均匀 分 布 . 


C.1.6 狄 利 克 雷 分 布 


AK Fil 克 雷 分 布 (Dirichlet distribution) 是 关于 一 组 d 个 连续 变量 u; € [0,1] 
的 概率 分 布 ， DA m = 1. Ñ u = (m; H2; ;Ha 参数 a = (a1; 095...5 aa), 
a; > 0, & = T Qi. 





r(â) aa 
pila) =Di(u a) = y re e C23) 
Elas 5 E (0.24) 
valu] = Se (0.25) 
cov[u;, pi] = a. TA (C.26) 


当 d 二 2 时 , 狄 利克 雷 分 布 退 化 为 贝塔 分 布 . 


“'C.1.7 高 斯 分 布 


高 斯 分 布 (Gaussian distributiom) 亦 称 正 态 分 布 (normal distribution), 是 应 
用 最 为 广泛 的 连续 概率 分 布 ， 


对 于 单 变量 r < (—00, 00), 高 斯 分 布 的 参数 为 均值 We (一 co, 00) 和 方差 


o? > 0. 附 图 C.3 给 出 了 在 几 组 不 同 参数 下 高 斯 分 布 的 概率 密度 函数 ， 








ple | 4.0%) =N (a | 1,02) = man SG 条 | C2 
了 一 (C.28) 
varlz] = ae | (C.29) 


对 于 d 维 向 量 x, 多 元 高 斯 分 布 的 参数 为 d 维 均值 向 量 p 和 d x d 的 对 称 
正定 协 方差 矩阵 D. 


p(x | 1,3)=N(z | u, ©) | 
| l “1 1 Teil | 
= 一 二 (2 一 > 一 C.30 
(27)4det(X) a 2 g p) Bs 
www ai bbt. con TOHOOOO8 加 
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C.2 #4Es th 
假设 变量 z 服从 分 布 P(x | 0), 其 中 日 ABR, X = {21,22,...,2m} AE 
量 z 的 观测 样本 , 假设 参数 O 服从 先 验 分 布 TI(9). Fhe O) 和 抽样 
分 布 P(X | 0) 决定 的 后 验 分 布 FO | X) 与 I(9) 是 同 种 类 型 的 分 布 , 则 称 先 
验 分 布 I(9) 为 分 布 P(x | O) Be P(X | ©) HEHA (conjugate distribution). 
例如 , 假设 z ~ Bern(z | y), X = {x1,20,...,2m} 为 观测 样本 , z 为 观测 
样本 的 均值 ,4 ~ Beta(u | a,b), 其 中 a,b NAMB, 则 的 后 验 分 布 


F(u | X) x Beta(y | a,b)P(X | n) 


a—1 b—1 

H (1 和 LL) mI mm? 

_ dice 
B(a,b) pL) 
1 atmz—1 b4+m—mz—-1 

= .=z 1 

Bla + mz,b+m-— mt)” E= 
= Beta(p | a’, 0’) , (C.33) 


亦 为 贝塔 分 布 , 其 中 d = a+ mz, =b+m—-—mi2, 这 意味 着 贝塔 分 布 与 伯 努 
wy， TONIH. 类 似 可 知 , 多 项 分 布 的 花 分 布 是 狄 利克 雷 分 布 , 而 高 斯 分 布 的 共 


差 已 知 、 均 值 服从 先 验 的 “” 斩 分 布 仍 是 高 斯 分 布 . 
情形 . ww ai bbt. com TOOOO00 
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这 里 假设 两 个 分 布 均 为 


连续 型 概率 分 布 ; 对 于 离 . 


散 型 概率 分 布 , 只 需 将 定 
义 中 的 积分 替换 为 对 所 有 
离散 值 遍 历 求 和 . 


度量 应 满足 四 个 基本 性 
质 ， 参见 9.3 节 . 


Mi oO 


先 验 分 布 反映 了 某 种 先 验 信息 , 后 验 分 布 既 反 映 了 先 验 分 布 提 供 的 信息 、 

又 反映 了 样本 提供 的 信息 . 当先 验 分 布 与 抽样 分 布 共 轿 时 , 后 验 分 布 与 先 验 分 
布 属于 同 种 类 型 , 这 意味 着 先 验 信息 与 样本 提供 的 信息 具有 某 种 同一 性 . 于 
是 , 若 使 用 后 验 分 布 作为 进一步 抽样 的 先 验 分 布 , 则 新 的 后 验 分 布 仍 将 属于 同 
种 类 型 . 因此 , 共 罗 分 布 在 不 少 情形 下 会 使 问题 得 以 简化 . 例如 在 式 (C.33) 的 
例子 中 , 对 服从 伯 努 利 分 布 的 事件 X 使 用 贝塔 先 验 分 布 , 则 贝塔 分 布 的 参数 值 
a 和 bb 可 视 为 对 伯 努 利 分 布 的 真实 情况 (事件 发 生 和 不 发 生 ) 的 预 佑 ， 随 着 “证 
据 ”( 样 本 ) 的 不 断 到 来 , 贝塔 分 布 的 参数 值 从 a,b 变化 为 a 十 mz,b 十 m 一 me, 
H a/(a +b) HME m 的 增 大 趋 近 于 伯 努 利 分 布 的 真实 参数 值 元 显然, 使 用 共 
TERZE, REAK a 和 这 两 个 预 估 值 即 可 方便 地 进行 模型 更 新 . 


C.3 KL 散 度 


KL 散 度 (Kullback-Leibler divergence), J} #548 XT i (relative entropy) 或 信 
J UE (information divergence), 可 用 于 度量 两 个 概率 分 布 之 间 的 差异 . 给 定 两 
个 概率 分 布 PP 和 Q, 二 者 之 间 的 KL 散 度 定 义 为 


KL(PIQ) = f pla) log 2E? as, o, (C.34) 


其 中 p(x) 和 q(x) DAA P Q 的 概率 密度 函数 ， 
KIL 散 度 满足 非 负 性 , 即 


KL(P||Q) > 0 ， | (C.35) 


SAMY P=Qi KL(P|Q) -= 0. 但 是 , KL 散 度 不 满足 对 称 性 , 即 


KL(PIQ) # KUIP) ; E (C.36) 


因此 , KL 散 度 不 是 一 个 度量 (metric). 
若 将 KL 散 度 的 定义 (C.34) 展 开 , 可 得 


OO 


KLCPIO) = f aaben f po)iogetojdz 


一 DO 


= =-FPI+EPB9 ~ (C37) 


ww ai bbt. com [} HW OOO000 





其 中 A(P) A lentropy), H(P, nQ) A P HI Q RIZE X Hi (cross entropy) 在 信 
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息 论 中 ,  A(P) 表示 对 来 自己 的 随机 变量 进行 编码 所 需 的 最 小 字 节 数 , 而 交 
MUR H(P, Q) 则 表示 使 用 基于 Q 的 编码 对 来 自 P 的 变量 进行 编码 所 需 的 字 节 
数 . 因此 , KL 散 度 可 认为 是 使 用 基于 Q 的 编码 对 来 自 P 的 变量 进行 编码 所 需 
的 “额外 ” 字 节 数 ; 显然 , 额外 字 节 数 必然 非 负 , 当 且 仅 当 PP = Q 时 额外 字 节 


ww ai bbt. com PO00D0DOO0O 
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写作 本 书 的 主因 , Æ 2016 年 准备 在 南京 大 学 开设 “机 器 学 习 ” 课 . 十 五 年 前 笔者 曾 主 张 开 设 此 
课 , 但 那 时 国内 对 机 器 学 习 闻 之 不 多 , 不 少 人 听 到 这 个 名 字 的 第 一 反应 是 “学 习 什 么 机 器 ?” 学 校 估 
计 学 生 兴 趣 不 大 , 于 是 笔者 开设 了 “数据 挖掘 ”这 门 名 字 听 上 去 就 觉得 很 有 用 的 课 . 被 评 为 省 优秀 
研究 生 课程 后 , 又 给 本 科 生 单 开 了 一 门 “ 数 据 挖掘 导论 ”. 这 两 门 课 很 受 欢迎 , 选修 学 生 很 多 , 包括 
不 少 外 来 中 听 生 . 虽然 课 上 有 一 多 半 其 实在 讲 机 器 学 习 , 但 笔者 仍 一 直 希 望 专 开 一 门 机 器 学 习 课 
因 笔 者 以 为 机 器 学 习 迟 早 会 变 成 计算 机 学 科 的 基础 内 容 . 


”图 灵 奖 得 主 E. W. Dijkstra 曾 说 “计算 机 科学 并 不 仅 是 关于 计算 机 , 就 像 天 文学 并 不 仅 是 关于 
望远镜 ”. 正如 天 文学 早期 的 研究 关注 如 何 制造 望远镜 , 计算 机 科学 早期 研究 是 在 关注 如 何 令 计 算 
机 运转 . 到 了 今天 , 建造 强大 的 天 文 望远镜 虽 仍 重要 , 但 天 文学 更 要 紧 的 是 “用 ”望远镜 来 开展 研 
究 . 类 似 地 , 计算 机 科学 发 展 至 今 , 也 该 到 了 从 关注 “ 造 ” 计 算 机 转 入 更 关注 “用 ”计算 机 来 认识 
_ 和 改造 世界 的 阶段 ， 其 中 最 重要 的 无 疑 是 用 计算 机 对 数据 进行 分 析 ， 因为 这 是 计算 的 主要 目的 , 而 
这 就 离 不 开机 器 学 习 . 十 多 年 前 在 国内 某 次 重要 论坛 上 笔者 刚 抛 出 此 观点 就 被 专家 迎头 指 斥 , 但 今 
日 来 看 ， 其 至 很 多 计算 机 学 科 外 人 士 都 已 对 机 器 学 习 的 重大 价值 津津 乐 首 , 现在 才 开设 机 器 学 习 基 
础 课 似 乎 已 有 乓 嫌 晚 了 . 


1995 年 在 南大 图 书馆 偶然 翻 看 了 《机 器 学 习 : BEALE 能 的 途径 》， 这 算是 笔者 接触 机 器 学 
习 的 开始 . 那 时 机 器 学 习 在 国内 问津 者 寥 , 甚至 连 科 研 人 员 申 请 基金 项 目 也 无 合适 代码 方向 可 报 . 
周边 无 专家 可 求教 , 又 因 国 内 科研 经 费 匮乏 而 几 无 国际 交流 , 加 之 学 校 尚 无 互联 网 和 电子 文献 库 ， 
能 看 到 的 最 新 文献 仅 是 两 年 前 出 版 且 页 数 不 全 的 某 IEEE 汇 刊 …… 可 谓 举步维艰 , 经 历 的 困惑 和 陷 
阱 不 可 胜 数 . 笔者 切身 体会 到 , 入 门 阶 段 接触 的 书籍 是 何等 重要 , 对 自学 者 尤 甚 . 一 本 好 书 能 让 人 少 
走 许多 弯路 , 材料 不 佳 则 后 续 要 花费 数 倍 精力 方 能 纠偏 ,中 文书 当然 要 国人 自己 来 写 . 虽 已 不 需 千 
“ 写 书 出 名 ”, 且 深 知 写 教科 书 极 耗 时 间 精 力 , 但 跨 跤 后 笔者 仍 决 定 动手 写 这 本 书 , 唯 望 为 初学 者 
略 尽 绵 薄 之 力 . oe 
”有 人 说 “一 千 个 人 眼中 就 有 一 千 个 哈姆雷特 ”, 一 个 学 科 何尝 不 是 如 此 . 之 所 以 不 欲 使 用 市 面 
上 流行 的 教科 书 (主要 是 英文 的 ), 除了 觉得 对 大 多 数 中 国学 生来 说 中 文教 科 书 更 便于 学 习 , 另 一 个 
原因 则 是 希望 从 笔者 自己 的 视角 来 展现 机 器 学 习 . 
2013 年 中 开始 规划 提纲 , 由 此 进入 了 焦躁 的 两 年 . 该 写 哪 些 内 容 、 先 写 什么 后 写 什 么 、 从 哪个 
角度 写 、 写 到 什么 程度 , 总 有 千 丝 万 缕 需 考虑 . 及 至 写作 进行 , PER, 深 恐 不 慎 误 人 子弟 . 
写 书 难 , 写 教科 书 更 难 . 两 年 下 来 , 甘苦 自 知 . 二 “PSL, 得 乎 其 中 ; 取 乎 其 中 , 得 乎 其 下 ”， 


且 以 顶级 的 态度 , 出 一 本 勉强 入 得 亢 家 法 眼 之 书 pagaanin 
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”本 书 贯 穿 以 西瓜 为 例 , 一 则 因为 瓜 果 中 笔者 尤 喜 西瓜 , 二 则 因为 西瓜 在 笔者 所 生活 的 区 域 有 个 
有 趣 的 草 义 . 朋友 小 聚 、 请 客 吃饭 , 菜 已 全 而 主 未 知 , 或 馈 未 齐 而 人 待 走 , A. 于 是 聪明 人 发 
明了 “ 潜 规 则 ”: 席 终 上 西瓜 . 无 论 整 盘 抑或 小 碟 , 宾主 见 瓜 至 , 则 心领神会 准备 起 身 , BAKE. 
久而久之 , 无 论 菜肴 价格 贵 屿 、 场 所 雅 鄙 , 宴 必 有 西瓜 . 若 将 宴席 比 作 (未 来 ) 应 用 系统 , 菜肴 比 作 所 
涉 技术 , 则 机 器 学 习 好 似 那 必 有 的 西瓜 , 它 可 能 不 是 最 “高 大 上 ”的 , 但 却 是 离 不 了 的 、 没 用 上 总 
觉得 不 甘心 的 . | | 

本 书写 作 过 程 从 材料 搜集 , 到 习题 设计 , 再 到 阅读 校勘 , 都 得 到 了 笔者 的 很 多 学 生 、 同 事 和 学 
术 界 朋友 的 支持 和 帮助 , 在 此 谨 列 出 他 们 的 姓名 以 致谢 意 (姓氏 拼音 序 ): 陈 松 灿 , REM, 高 阳 , 高 
A, 黄 圣 君 , BY, 李楠 , ERF, 李 宇 峰 , 钱 超 , ER, 王 威廉 , RES, AR, 俞 扬 , EE, 张 利 军 ， 
张 敏 灵 , 朱军 . 书稿 在 LAMDA 组 学 生 2015 年 暑期 讨论 班 上 试 讲 , 高 斌 斌 、 郭 翔 宇 、 李 绍 园 、 钱 
鸿 、 沈 芷 玉 、 叶 翰 嘉 、 张 腾 等 同学 又 帮助 发 现 了 许多 笔 误 . 特别 感谢 李楠 把 笔者 简陋 的 手绘 图 转变 
为 精致 的 插图 , 俞 扬 帮助 调整 排版 格式 和 索引 , 刘 冲 把 笔者 对 封面 设计 的 想法 具体 表现 出 来 . 

中国 计算 机 学 会 终身 成 就 奖 得 主 、 中 国 科 学 院 院士 陆 汝 铃 先 生 是 我 国人 工 智 能 事业 的 开拓 者 
之 一 , 他 在 1988 年 和 1996 年 出 版 的 《人 工 智 能 》( 上 、 下 册 ) 曾 给 予 笔 者 很 多 启发 . 承蒙 陆 老师 厚 
爱 在 百 忙中 为 本 书 作 序 , 不 胜 性 恐 之 至 . 陆 老 师 在 序言 中 提出 的 问题 很 值得 读者 在 本 书 之 后 的 进 阶 

学 习 与 研究 中 深思 . | | | 
| RU TEE: HRERS ZMA AH UT SD. 十 二 年 前 笔者 入 选 国家 杰出 青年 科 
me He Se ih EE if SE BS, 笔者 以 年 纪 尚 轻 、 学 力 未 逮 婉 辞 . 十 年 前 “机 器 学 习 及 其 应 用 ”研讨 
会 (MLA) 从 陆 汝 铃 院 士 秘 始 的 复旦 大 学 智能 信息 处 理 重点 实验 室 移 师 南京 , 参 会 人 数 从 复旦 最 初 的 
20 A, 发 展 到 2010 年 400 RA, 此 后 在 清华 、 复 旦 、 西 电 达 800 余人 ,今年 再 回 南大 竞 至 1300 余 
A, 场面 热烈 . MLA 倡导 “学 术 至 上 、 其 余 从 简 ”, MERE, SAR. 但 即便 如 此 , 仍 有 
”很 多 感 兴趣 的 师 生 因 旅 费 不 菲 而 难以 参加 . 于 是 笔者 提议 每 两 年 以 《机 器 学 习 及 其 应 用 》 为 题 出 版 
一 本 报告 选集 以 给 读者 . 这 个 主意 得 到 了 薛 老师 、 陆 老师 以 及 和 笔者 一 起 长 期 组 织 MLA、 去 年 因 
病 去 世 的 王 球 老 师 的 大 力 支 持 . 此 类 专业 性 学 术 文集 销量 不 大 , 出 版 社 多 半 要 贴 钱 . 笔者 曾 跟 薛 老 
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内 容 简 介 


机 器 学 习 是 计算 机 科学 的 重要 分 支 领域 . 本 书 作为 该 领域 的 入 门 教材 ， 在 内 容 上 尽 可 能 涵盖 机 器 学 习 基础 
知识 的 各 方面 . 全 书 共 16 章 ， 大 致 分 为 3 个 部 分 : 第 1 部 分 (第 1~3 章 ) 介绍 机 器 学 习 的 基础 知识 ; 第 2 部 
分 (第 4~10 章 ) 讨论 一 些 经 典 而 常用 的 机 器 学 习 方 法 (决策 树 、 神 经 网 络 、 支 持 向 量 机 、 贝 叶 斯 分 类 器 、 集 
成 学 习 、 聚 类 、 降 维 与 度量 学 习 );， 第 3 部 分 (第 11~16 章 ) 为 进 阶 知识 ， 内 容 涉 及 特征 选择 与 稀疏 学 习 、 
计算 学 习 理论 、 半 监督 学 习 、 概 率 图 模型 、 规 则 学 习 以 及 强化 学 习 等 . 每 章 都 附 有 习题 并 介绍 了 相关 阅读 材料 ， 
以 便 有 兴趣 的 读者 进一步 钻研 探索 . | | 
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这 是 一 本 面向 中 文 读者 的 机 器 学 习 教 科 书 , 为 了 使 尽 可 能 多 的 读者 通过 本 书 对 机 器 学 习 有 所 了 
解 , 作者 试图 尽 可 能 少 地 使 用 数学 知识 . 然而 , 少量 的 概率 、 统 计 、 代 数 、 优 化 、 逻 辑 知 识 似乎 不 可 
避免 . 因此 , 本 书 更 适合 大 学 三 年 级 以 上 的 理工 科 本 科 生 和 研究 生 , 以 及 具有 类 似 背 景 的 对 机 器 学 习 
感 兴趣 的 人 士 . 为 方便 读者 , 本 书 附录 给 出 了 一 些 相关 数学 基础 知识 简介 . 

全 书 共 16 章 , 大 体 上 可 分 为 3 个 部 分 : 第 1 部 分 包括 第 1~3 章 , 介绍 机 器 学 习 基础 知识 ; 第 2 部 
分 包括 第 4~10 章 , 介绍 一 些 经 典 而 常用 的 机 器 学 习 方法 ; 第 3 部 分 包括 第 11~16 BE, 介绍 一 些 进 阶 
知识 . 前 3 章 之 外 的 后 续 各 章 均 相 对 独立 , 读者 可 根据 自己 的 兴趣 和 时 间 情 况 选 择 使 用 . 根据 课时 情 
况 , 一 个 学 期 的 本 科 生 课程 可 考虑 讲授 前 9 章 或 前 10 章 ; 研究 生 课程 则 不 妨 使 用 全 书 . 

书 中 除 第 1 章 外 , 每 章 都 给 出 了 十 道 习 题 . 有 的 习题 是 帮助 读者 巩固 本 章 学 习 , 有 的 是 为 了 引导 读 
者 扩展 相关 知识 . 一 学 期 的 一 般 课 程 可 使 用 这 些 习 题 , 再 辅 以 两 到 三 个 针对 具体 数据 集 的 大 作业 . 带 
星 号 的 习题 则 有 相当 难度 , 有 些 并 无 现成 答案 , 谨 供 富有 进取 心 的 读者 启发 思考 . | 

本 书 在 内 容 上 尽 可 能 涵盖 机 器 学 习 基 础 知识 的 各 方面 , 但 作为 机 器 学 习 入 门 读物 且 因 授课 时 间 的 
考虑 , 很 多 重要 、 前 沿 的 材料 未 能 覆盖 , 即便 覆盖 到 的 部 分 也 仅 是 管中窥豹 , 更 多 的 内 容留 待 读者 在 
进 阶 课程 中 学 习 . 为 便于 有 兴趣 的 读者 进一步 钻研 探索 , 本 书 每 章 均 介绍 了 一 些 阅读 材料 , 谨 供 读者 
参考 
笔者 以 为 , 对 学 科 相 关 的 重要 人 物 和 事件 有 一 定 了 解 , 将 会 增进 读者 对 该 学 科 的 认识 . 本 书 在 每 
章 最 后 都 写 了 一 个 与 该 章 内 容 相关 的 小 故事 , 希望 有 助 于 读者 增 广 见闻 , 并 且 在 紧张 的 学 习 过 程 中 稍 
微 放松 调剂 一 下 . | 

书 中 不 可 避免 地 涉及 大 量 外 国人 名 , 若 全 部 译 为 中 文 , 则 读者 在 日 后 进一步 阅读 文献 时 或 许 会 对 
不 少 人 名 产生 陌生 感 , 不 利于 进一步 学 习 . 因此 , 本 书 仅 对 一 般 读 者 耳熟能详 的 名 字 如 “图 灵 ” 等 加 
以 直接 使 用 , 对 故事 中 的 一 些 主要 人 物 给 出 了 译名 , 其 他 则 保持 外 文 名 ， 

机 器 学 习 发 展 极 迅 速 , 目前 已 成 为 一 个 广 衰 的 学 科 , 罕有 人 士 能 对 其 众多 分 支 领域 均 有 精深 理解 ， 
CX AUTRE, 仅 略 知 皮毛 , 更 兼 时 间 和 精力 所 限 , 书 中 错 廖 之 处 在 所 难免 , 若 蒙 读者 诸 君 不 音 千 
知 , 将 不 胜 感激 . | | 
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在 人 工 智 能 界 有 一 种 说 法 , 认为 机 器 学 习 是 人 工 智 能 领域 中 最 能 够 体现 智能 的 一 个 分 支 , 从 历史 
来 看 , 机 器 学 习 似乎 也 是 人 工 智能 中 发 展 最 快 的 分 支 之 一 . 在 二 十 世纪 八 十 年 代 的 时 候 , 符号 学 习 可 
“能 还 是 机 器 学 习 的 主流 , 而 自从 二 十 世纪 九 十 年 代 以 来 , 就 一 直 是 统计 机 器 学 习 的 天 下 了 . 不 知道 是 
否 可 以 这 样 认为 : 从 主流 为 符号 机 器 学 习 发 展 到 主流 为 统计 机 器 学 习 , 反映 了 机 器 学 习 从 纯粹 的 理论 
研究 和 模型 研究 发 展 到 以 解决 现实 生活 中 实际 问题 为 目的 的 应 用 研究 , 这 是 科学 研究 的 一 种 进步 . 有 
关机 器 学 习 的 专著 国内 出 版 的 不 是 很 多 . 前 两 年 有 李 航 教授 的 《统计 学 习 方 法 》 出 版 , 以 简要 的 方式 

介绍 了 一 批 重 要 和 常用 的 机 器 学 习 方 法 . 此 次 周志 华 教授 的 鸿 篇 巨著 《机 器 学 习 》 则 全 面 而 详细 地 介 
绍 了 机 器 学 习 的 各 个 分 支 , 既 可 作为 教材 , 又 可 作为 自学 用 书 和 科研 参考 书 . 


翻阅 书稿 的 过 程 引起 了 一 些 自己 的 思考 , 平时 由 于 和 机 器 学 习 界 的 朋友 接触 多 了 , 经 常 获得 一 些 
道听途说 的 信息 以 及 专家 们 对 机 器 学 习 现状 及 其 发 展 前 途 的 评论 . 在 此 过 程 中 , 难免 会 产生 一 些 自己 
的 疑问 . 我 借 此 机 会 把 它 写 下 来 放 在 这 里 , 算是 一 种 “外 行 求教 机 器 学 习 ”， 


问题 一 : 在 人 工 智能 发 展 早期 , 机 器 学 习 的 技术 内 涵 几 乎 全 部 是 符号 学 习 . 可 是 从 二 十 世纪 九 十 
年 代 开始 , 统计 机 器 学 习 犹 如 一 匹 黑马 横 空 出 世 , 迅速 压倒 并 取代 了 符号 学 习 的 地 位 . 人 们 可 能 会 问 : 
在 满目 的 统计 学 习 期 刊 和 会 议 文章 面前 , 符号 学 习 是 否 被 彻底 忽略 了 ? 它 还 能 成 为 机 器 学 习 的 研究 对 
象 吗 ? 它 是 否 将 继续 在 统计 学 习 的 阴影 里 生活 并 苟 延 残 喘 ? 对 这 个 问题 有 三 种 可 能 的 答案 : — 

符号 学 习 ;“ 你 就 是 该 退出 历史 舞台 , 认命 吧 !” 二 是 告诉 统计 学 习 :“ 你 的 一 言 堂 应 该 关门 了 !” 单纯 
的 统计 学 习 已 经 走 到 了 尽头 ， 再 想 往 前 走 就 要 把 统计 学 习 和 符号 学 习 结 全 起 来 .三 是 事物 发 展 总 会 有 
“三 十 年 河东 , 三 十 年 河西 ”的 现象 符号 学 习 还 有 “翻身 ”的 日 子 . 第 一 种 观点 我 没有 听 人 明说 过 ， 
但 是 我 想 丽 怕 有 可 能 已 经 被 许多 人 默认 了 . 第 二 种 观点 我 曾 听 王 球 教 授 多 次 说 过 . 他 并 不 认为 统计 学 
习 会 衰退 , 而 只 是 认为 机 器 学 习 已 经 到 了 一 个 转折 点 , 从 今 往 后 , 统计 学 习 应 该 和 知识 的 利用 相 结合 ， 
这 是 一 种 “螺旋 式 上 升 , 进入 更 高 级 的 形式 ”, 否则 , 统计 学 习 可 能 会 停留 于 现状 而 止步 不 前 . EEH 
授 还 认为 : 进入 转折 点 的 标志 就 是 Koller 等 的 《概率 图 模型 》 一 书 的 出 版 . 至 于 第 三 种 观点 , 恰好 我 
收 到 老 朋 友 , SEALER. RAMA Chandrasekaran 教授 的 来 信 , 他 正好 谈 起 符号 智能 
被 统计 智能 “打压 ”的 现象 , 并 且 正 好 表达 了 河东 河西 的 观点 . 我 请 求 他 允许 我 把 这 段 话 引进 正在 扎 
写 的 序言 中 , 他 爽快 地 同意 了 , 仅仅 修改 了 几 处 私人 通信 的 口吻 . 全 文 如 下 :“ 最 近 几 年 , 人 工 智 能 

很 大 程度 上 集中 于 统计 学 和 大 数据 . 我 同意 由 于 计算 能 力 的 大 幅 提高 , 这 些 技术 曾经 取得 过 某 些 令 
人 印象 深刻 的 成 果 . 但 是 我 们 完全 有 理由 相信 , 虽然 这 些 技术 还 会 继续 改进 、 提 高 , 总 有 一 天 这 个 领 
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相信 定 有 必要 把 统计 技术 和 对 认 知 结构 的 深 有 刻 理解 结合 起 来 . ”看 来 , Chandrasekaran 教授 也 并 不 认 
为 若干 年 以 后 AI 真 会 回 到 河西 , 他 的 意见 和 王 瑟 教授 的 意见 基本 一 致 , 但 不 仅 限于 机 器 学 习 , 而 是 涉 
及 整个 人 工 管 9 能 领域 . 》 Ae EERO RA ALTA, 而 Chandrasekaran 教授 强调 更 加 基本 的 “ 认 知 ” 


问题 二 : 王 于 教授 认为 统计 机 器 学 习 不 会 “一 路 顺风 ”的 判 据 是 : 统计 机 器 学 习 算法 都 是 基于 样 
本 数据 独立 同 分 布 的 假设 . 但 是 自然 界 现象 千变万化 , 王 于 教授 认为 “ 哪 有 那么 多 独立 同 分 布 ?” 这 
就 引 来 了 下 一 个 问题 : “独立 同 分 布 ”条 件 对 于 机 器 学 习 来 讲 真 是 必需 的 吗 ? 独立 同 分 布 的 不 存在 一 - 
定 是 一 个 不 可 逾越 的 障碍 吗 ? 无 独立 同 分 布 条 件 下 的 机 器 学 习 也 许 只 是 一 个 难题 , 而 不 是 不 可 解 问 
题 . 我 有 一 个 “胡思乱想 ”, 认为 前 些 时 候 出 现 的 “迁移 学 习 ” 也 许 会 对 这 个 问题 的 解决 带 来 一 线 曙 
光 . 尽管 现在 的 迁移 学 习 还 要 求 迁移 双方 具备 “独立 同 分 布 ”条件 , 但 是 不 同 分 布 之 间 的 迁移 学 习 ， 
同 分 布 和 异 分 布 之 间 的 迁移 学 习 也 许 迟 早 会 出 现 ? 

问题 三 : 近年 来 出 现 了 一 些 新 的 动向 ， 例如 “深度 学 习 ”、“ 无 终止 学 习 ” 等 等 , 社会 上 给 予 了 
特别 关注 , 尤其 是 深度 学 习 . 但 它们 真 的 代表 了 机 器 学 习 的 新 的 方向 吗 ? 包括 本 书 作者 周志 华 教授 在 
内 的 一 些 学 者 认为 : 深度 学 习 掀 起 的 热潮 也 许 大 过 它 本 身 真正 的 贡献 , 在 理论 和 技术 上 并 没有 太 多 的 
创新 , 只 不 过 是 由 于 硬件 技术 的 革命 , 计算 机 的 速度 大 大 提高 了 , 使 得 人 们 有 可 能 采用 原来 复杂 度 很 
高 的 算法 , 从 而 得 到 比 过 去 更 精细 的 结果 . 当然 这 对 于 推动 机 器 学 习 应 用 于 实践 有 很 大 意义 . 但 我 们 
不 禁 要 斗 胆 问 一 名 : 深度 学 习 是 否 又 要 取代 统计 学 习 了 ? 事实 上 , 确 有 专家 已 经 感受 到 来 自 深度 学 习 
的 压力 , 指出 统计 学 习 正在 被 深度 学 习 所 打压 , 正如 我 们 早 就 看 到 的 符号 学 习 被 统计 学 习 所 打压 . 不 
过 我 觉得 这 种 打压 还 远 没有 强大 到 像 统计 学 习 打压 符号 学 习 的 程度 . 这 一 是 因为 深度 学 习 的 “理论 创 
新 ”还 不 明显 ; 二 是 因为 目前 的 深度 学 习 主要 适合 于 神经 网 络 , 在 各 种 机 器 学 习 方法 百花 盛开 的 今天 ， 
它 的 应 用 范围 还 有 限 , 还 不 能 直接 说 是 连接 主义 方法 的 回归 ; 三 是 因为 统计 学 习 仍 然 在 机 器 学 习 中 被 
有 效 地 普遍 采用 , “得 道 多 助 ”, 想 抛弃 它 不 容易 . 


“问题 四 : 机 器 学 习 研 究 出 现 以 来 ,我 们 看 到 的 主要 是 从 符号 方法 到 统计 方法 的 演变 , 用 到 的 数学 
要 是 概率 统计 . 但 是 , 数学 之 大 , 就 像 大 海 . 难道 只 有 统计 方法 适合 于 在 机 器 学 习 方面 应 用 吗 ? 
我 们 也 看 到 了 一 些 其 他 数学 分 支 在 机 器 学 习 上 的 应 用 的 好 例子 , 例如 微分 几何 在 流 形 学 习 上 的 应 用 ， 
微分 方程 在 归纳 学 习 上 的 应 用 . 但 如 果 和 统计 方法 相 比 , 它们 都 只 能 算是 配角 . 还 有 的 数学 分 支 如 代 
数 可 能 应 用 得 更 广 , 但 在 机 器 学 习 中 代数 一 般 是 作为 基础 工具 来 使 用 , 例如 矩阵 理论 和 特征 值 理论 . 
又 如 微分 方程 求解 最 终 往往 归结 为 代数 问题 求解 . 它们 可 以 算是 幕后 英雄 :“ 出 头 露面 的 是 概率 和 统 
计 , 埋头 苦 干 的 是 代数 和 逻辑 ”. 是 否 可 以 想象 以 数学 方法 为 主角 , 以 统计 方法 为 配角 的 机 器 学 习 理 
ONE? 在 这 方面 , 流 形 学 习 已 经 “有 点 意思 ”了 ,而 喜 gogo 
走势 , 也 许 是 用 高 深 数学 推动 新 的 机 器 学 习 模式 的 更 好 例子 . 但 是 从 宏观 的 角度 看 , 数学 理论 的 介 
程度 还 远 远 不 够 . 这 里 指 的 主要 是 深刻 的 、 现代 的 数学 理论 我 们 期 待 着 有 更 多 数学 家 的 参与 a 
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问题 五 : 上 一 个 问题 的 延续 : 符号 机 器 学 习 时 代 主 要 以 离散 方法 处 理 问题 , 统计 机 器 学 习 时 代 主 

要 以 连续 方法 处 理 问题 . 这 两 种 方法 之 间 应 该 没有 一 条 鸿沟 . 流 形 学 习 中 李 群 、 李 代数 方法 的 引入 给 
我 们 以 很 好 的 启示 . 从 微分 流 形 到 李 群 , 再 从 李 群 到 李 代数 , 就 是 一 个 沟通 连续 和 离散 的 过 程 . 然而 ， 
现 有 的 方法 在 数学 上 并 不 完美 . 浏览 流 形 学 习 的 文献 可 知 , 许多 论文 直接 把 任意 数据 集 看 成 微分 流 形 ， 
从 而 就 认定 测 地 线 的 存在 并 讨论 起 降 维 来 了 . 这 样 的 例子 也 许 不 是 个 别 的 , 足 可 说 明 数 学 家 介入 机 器 
学 习 研 究 之 必要 . 

问题 六 : 大 数据 时 代 的 出 现 , 有 没有 给 机 器 学 习 带 来 本 质 性 的 影响 ? 理论 上 讲 , 似乎 “大 数据 ”给 
统计 机 器 学 习 提供 了 更 多 的 机 遇 , 因为 海量 的 数据 更 加 需要 统计 、 抽 样 的 方法 . 业界 人 士 估计 , 大 数 
据 的 出 现 将 使 人 工 智能 的 作用 更 加 突出 . 有 人 把 大 数据 处 理 分 成 三 个 阶段 : 收集 、 分 析 和 预测 . 收集 
和 分 析 的 工作 相对 来 说 已 经 做 得 相当 好 了 , 现在 关注 的 焦点 是 要 有 科学 的 预测 , 机 器 学 习 技术 在 这 里 
不 可 或 缺 . 这 一 点 大 概 毋 庸 置疑 ， 然而 , 同样 是 使 用 统计 、 抽 样 方法 , 同样 是 收集 、 分 析 和 预测 , 大 数 
据 时 代 使 用 这 类 方法 和 以 前 使 用 这 类 方法 有 什么 本 质 的 不 同 吗 ?量变 到 质变 是 辩证 法 的 一 个 普遍 规 
律 . 那么 , 从 前 大 数据 时 代 到 大 数据 时 代 , 数理 统计 方法 有 没有 发 生 本 质 的 变化 ? 反映 到 它们 在 机 器 学 
习 上 的 应 用 有 无 本 质变 化 ? 大 数据 时 代 正 在 呼唤 什么 样 的 机 器 学 习 方 法 的 产生 ? 哪些 机 器 学 习 方法 
又 是 由 于 大 数据 研究 的 驱动 而 产生 的 呢 ? 

以 上 这 些 话 也 许 说 得 远 了 , 我 们 还 是 回 到 本 书 上 来 . 本 书 的 作者 周志 华 教授 在 机 器 学 习 的 许多 领 
域 都 有 出 色 的 贡献 , 是 中 国 机 器 学 习 研 究 的 领军 人 物 之 一 , 在 国际 学 术 界 有 着 很 高 的 声誉 . 他 在 机 器 
学 习 的 一 些 重要 领域 , 例如 集成 学 习 、 半 监督 学 习 、 多 示例 和 多 标记 学 习 等 方面 都 做 出 了 在 国际 上 有 
重要 影响 的 工作 , 其 中 一 些 可 以 认为 是 中 国学 者 在 国际 上 的 代表 性 贡献 . 除了 自身 的 学 术 研 究 以 外 ， 
他 在 推动 中 国 的 机 器 学 习 发 展 方面 也 做 了 许多 工作 . 例如 他 和 不 久 前 刚 过 世 的 王 球 教 授 从 2002 EF 
始 , 组 织 了 系列 化 的 “机 器 学 习 及 其 应 用 ”研讨 会 . 初 在 复旦 , 后 移 至 南大 举行 , 越 办 越 兴旺 , 从 单一 
的 专家 报告 发 展 到 专家 报告 、 学 生 论坛 和 张贴 论文 三 种 方式 同时 举行 , 参 会 者 从 数 十 人 发 展 到 数 百 
人 , 活动 搞 得 有 声 有 色 , 如 火 如 蔡 . 最 近 更 是 把 研讨 会 推 向 全 国 高 校 轮 流 举 行 他 和 王 球 教 授 紧密 合 
fe, 南北 呼应 , AR AAKE”. 王 球 教授 的 离 去 使 我 们 深 感 悲伤 . 令 我 们 欣慰 的 是 国内 不 但 有 周志 
华 教授 这 样 的 机 器 学 习 领 军人 物 , 而 且 比 周 教授 更 年 轻 的 许多 机 器 学 习 青年 才 俊 也 成 长 起 来 了 . 中 国 
的 机 器 学 习 大 有 希望 ， | 
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中 国 科 学 院 数学 与 系统 科学 研究 院 
2015 年 8 月 于 北京 
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主要 符号 表 


标量 

HE 

变量 集 

和 矩阵 

单位 阵 

样本 空间 或 状态 空间 
数据 样本 〈 数 据 集 ) 
假设 空间 


假设 集 


“学 习 算法 


行 向 量 

列 向 量 

癌 量 或 矩阵 转 置 

集合 

集合 {…} 中 元 素 个 数 

Lp 范 数 , p 缺 省 时 为 Lo 范 数 

概率 质量 函数 , 条 件 概率 质量 函数 

概率 密度 函数 , 条 件 概率 密度 函数 

函数 f(-) 对 在 分 布 D 下 的 数学 期 望 ; 意义 明确 时 将 
省 略 D 和 (或 ) - 

上 确 界 

指示 函数 , 在 . 为 真 和 假 时 分 别 取 值 为 1,0 

符号 函数 , 在 . < 0, = 0, > 0 时 分 别 取 值 为 一 1,0,1 
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